Contents

Descobrindo a verdade por trás da obra-prima enganosa do vídeo de Gemini

Publicado em 8 de dezembro de 2023 às 13h05. por cabeçalho do artigo

O Google causou sensação ao anunciar a chegada de seu modelo Gemini AI. Resultado de uma colaboração entre o Google DeepMind e o Google Research, é o mais eficiente dos principais modelos de linguagem do grupo. Em sua versão Ultra maior, o Gemini é o primeiro modelo de IA a atingir uma pontuação de 90% no benchmark MMLU.

Gemini Ultra exibe um nível de proficiência que excede até mesmo o de especialistas humanos quando se trata de compreender múltiplas tarefas no domínio do processamento de linguagem. Possui uma versatilidade excepcional em diversas disciplinas e demonstra impressionantes habilidades de resolução de problemas, juntamente com formidáveis ​​​​capacidades de raciocínio matemático.

Gemini foi projetado para ser nativamente multimodal. Isso fornece processamento e compreensão simultâneos de texto, imagens, áudio, vídeo e até mesmo código. Num vídeo verdadeiramente impressionante, o Google demonstrou as capacidades do Gemini.

Um vídeo bom demais para ser verdade?

A demonstração no vídeo exemplifica as capacidades do Gemini, muito provavelmente do Gemini Ultra, de reconhecer e delinear objetos, compreender uma atmosfera e um cenário, avaliar uma situação difícil e inferir racionalmente a progressão das ocorrências.

O indivíduo na filmagem parece navegar de forma eficiente usando apenas entradas mínimas, provocando uma impressão de uniformidade. O sistema de IA conhecido como Gemini aborda habilmente múltiplas complexidades e exibe um bom julgamento com base nas informações fornecidas. No entanto, o filme não representa com precisão as experiências cotidianas.

Um certo grau de encenação não surpreende, mas o título do vídeo ainda evoca um manejo de Gêmeos. Na descrição do vídeo, afirma-se que, para fins de demonstração, a latência foi reduzida e as respostas do Gemini foram abreviadas por questões de brevidade.

Instruções muito mais detalhadas

Responsável pela pesquisa e aprendizagem profunda no Google DeepMind, e também co-responsável pelo Gemini, Oriol Vinyals garante que todas as solicitações e respostas do usuário no vídeo sejam reais.“O vídeo ilustra como poderiam ser as experiências multimodais do usuário com o Gemini. Fizemos isso para inspirar desenvolvedores.”

Segundo a Bloomberg, o Google reconheceu em comentário que o vídeo não foi feito em tempo real, nem com comandos de voz. Não foi uma conversa cara a cara como na montagem. Além disso, estas são imagens estáticas que foram apresentadas a Gemini.

Em uma postagem no blog para desenvolvedores que retorna aos desafios colocados ao Gemini no vídeo, o Google retorna com mais detalhes às solicitações enviadas ao seu modelo de IA. Acontece que eles são muito mais detalhados do que o vídeo sugere. A justificativa da brevidade para os fins do vídeo não desculpa tudo, principalmente porque prompts reais permitem direcionar Gêmeos em suas respostas e na análise das situações.

/images/gemini_04b0032001693493.jpg

A recente disputa não nega os avanços alcançados pelo Google em relação ao Gemini, quando comparados com os seus modelos linguísticos anteriores, mas a divulgação geral do vídeo representa um risco perigoso. Ao contrário, a realidade pode não ser tão inovadora… ainda.

Jornalista deste site especializado em novas tecnologias

*️⃣ Link da fonte:

Oriol Vinyals garante , Bloomberg , postagem de blog para desenvolvedores,