Contents

A realidade por trás de sua demonstração!

,

A OpenAI ganhou espaço com o ChatGPT e seus modelos de linguagem, tornando-se a empresa de tecnologia que, no momento, lidera por larga margem no setor de inteligência artificial generativa. Isso fez com que grandes empresas de tecnologia como o Google não conseguissem encarar um produto tão atraente para usuários como o ChatGPT.

Até agora, bardo Foi a única ferramenta lançada pelo Google para tentar apaziguar o desejo de ver um produto semelhante desenvolvido por quem está em Montain View. Embora com grande projeção, o seu lançamento não nos trouxe grandes novidades neste setor. Porém, a empresa tinha um ás na manga: Gemini. E embora já tenhamos visto brevemente as capacidades deste modelo de linguagem multimodal através de uma demonstração, é importante notar que Muito do que vimos no vídeo não acontece em tempo real.

O que vimos de Gemini foi na verdade baseado em texto

O Google surpreendeu nas redes com o Gemini, sua mais recente resposta a uma indústria que gira cada vez mais em torno da IA ​​generativa. No vídeo vimos como esse modelo de linguagem parecia responder a tudo que o usuário fazia , interagindo com o ambiente e observando o que estava fazendo.

Gemini, dessa forma, interagia com o usuário respondendo corretamente a tudo que ele desenhava, jogando pedra, papel, tesoura, identificando objetos, descobrindo onde o usuário estava escondendo o objeto e situações semelhantes. Dessa forma, o Google tentou nos mostrar as capacidades de seu novo modelo de linguagem baseado em múltiplas formas de informação.

No entanto, o que parecia ser"múltiplas formas de informação"foi a resposta de Gemini a A simple prompt in text , algo que não vimos no vídeo e que um porta-voz do Google confirmou ao mídiaBloomberg. E aparentemente, o vídeo foi feito a partir de frames da gravação e utilizando essas imagens para que Gêmeos pudesse responder via texto através de diversos prompts.

Assim, de acordo com as informações, quem falava no vídeo estava lendo algumas das instruções que serviam para fazer o Gêmeos responder e a voz do assistente expressava apenas o que o Gêmeos gerava no texto. Para alimentar a modelo com as informações que aparecem no vídeo, foram fornecidas algumas imagens, como o jogo de pedra, papel e tesoura, para que Gêmeos pudesse responder à pergunta sobre qual jogo ela estava jogando. Nesse sentido, é algo semelhante ao que faz o GPT-4 Vision, onde podemos enviar uma imagem para a IA para ela processar e interpretar.

/images/09e4ee68a49f8a34d407e201aa4793c7e2b8cccb68ff38a5823124bdf1fd6415.jpg Neste site Não é você, é o ChatGPT: GPT-4 está cada vez mais preguiçoso, a OpenAI sabe disso e já está em busca de uma solução

O vídeo mostra uma melhoria na latência e respostas concisas, conforme demonstrado pelo Gemini, que é supervisionado por Oriol Vinyals, vice-presidente de pesquisa e líder de aprendizado profundo do Google DeepMind. A demonstração ilustra como poderiam ser as possíveis interações multimodais do usuário ao utilizar o Gemini. No entanto, a sua aplicação prática ainda pode demorar algum tempo.

Gemini veio em três versões: Ultra, Pro e Nano. Na verdade, atualmente o Google Bard já usa o Gemini Pro como modelo de linguagem. De acordo com vários testes de desempenho, o Gemini Ultra supera o GPT-4 em vários testes. Porém, é preciso levar em conta que o percentual de melhoria parece ínfimo, além do fato de estarmos comparando com um modelo de linguagem em que a OpenAI vem trabalhando há mais de um ano, então tudo pode mudar no próximos meses com o lançamento do GPT-5.

É importante reconhecer que o Gemini Ultra está atualmente acessível apenas a um grupo limitado de desenvolvedores e pesquisadores, apesar da intenção da empresa de lançá-lo de forma mais ampla no próximo ano. No entanto, os usuários ainda poderão experimentar recursos aprimorados por meio da integração de recursos derivados do Bard, que foram apresentados anteriormente no Gemini Pro.

A União Europeia promulgou recentemente um quadro regulamentar inovador para a Inteligência Artificial, que descreve restrições específicas à sua utilização, ao mesmo tempo que prevê isenções para determinados casos. Esta legislação histórica representa um avanço significativo na gestão do desenvolvimento e implantação de tecnologias de IA na região.

0

*️⃣ Link da fonte:

Bloomberg,