Modelo de IA surpreende com desempenho superior em relação ao GPT-4 em testes secretos

Jackson Holt included in Internet Artificial Intelligence

2024-03-29 484 words 3 minutes

Contents

O que foi aprovado recentemente foi um dia histórico para o mundo das inteligências artificiais: parece que na terça-feira, 26 de março, Claude 3 Opus da Anthropic passou pela primeira vez OpenAI GPT-4 Chat no Chatbot Arena, um popular ranking de crowdsourcing utilizado por pesquisadores para avaliar as capacidades dessas tecnologias, conhecidas no setor pela sigla LLM que significa Large Language Model, que pode ser traduzido como “grande modelo linguístico”.

«O rei está morto» escreveu o desenvolvedor de software Nick Dobos em um post no qual comparou os resultados do desafio entre GPT-4 Turbo e Claude 3 Opus. «RIP GPT-4».

Resumo de um conto

O ChatGPT-4 dominou esse ranking a partir de 10 de maio de 2023, ou seja, desde que foi lançado, portanto a derrota que acabamos de sofrer é um acontecimento a ficar registrado na história-relativamente curta, convenhamos-das inteligências artificiais, que multiplicam seus capacidades dia a dia. Também dignos de nota foram os desempenhos de classificação de Haiku , outra IA muito menor também desenvolvida pela Anthropic.

«Pela primeira vez os melhores modelos de linguagem de IA disponíveis – Opus para tarefas avançadas, Haiku do ponto de vista de custos e eficiência – não foram desenvolvidos pela OpenAI» comenta o investigador independente Simon Willison , «e isto é tranquilizador , porque neste setor todos beneficiamos de uma variedade de fornecedores diferentes. O GPT-4 existe há mais de um ano e foi esse tempo que levou para alguém acompanhar."

Como funciona essa classificação

O Chatbot Arena é operado pela Large Model Systems Organization, uma organização dedicada à pesquisa de modelos de IA com a colaboração de estudantes de várias universidades, incluindo Califórnia, Berkley, UC San Diego e Carnegie Mellon University of Pennsylvania.

Resumindo, esta plataforma fornece ao usuário uma caixa de entrada e duas janelas mostrando a saída de dois LLMs sem saber o que é. A tarefa do usuário é avaliar qual o melhor resultado com base em critérios que ele mesmo considere mais adequados naquele contexto. Através de milhares dessas comparações subjetivas, o Chatbot Arena elabora um ranking dos melhores, atualizando-o de tempos em tempos.

Esta plataforma é muito útil especialmente para desenvolvedores porque eles podem medir seu desempenho individualmente, devido aos resultados extremamente variáveis, pode ser muito difícil , e muitas vezes benchmarks (onde Claude 3 Opus já havia ultrapassado o GPT-4 no início do mês) neste mercado seria muito menos interessante para fins de avaliação sérios.

Além disso, o Gemini Advanced do Google, que é uma IA bastante recente, está ganhando pontos rapidamente neste ranking, então é provável que haja mais de um oponente. Certamente os novos resultados também serão úteis para a OpenAI, que agora terá que se ocupar para retomar o trono.

Para conhecer mais o mundo da inteligência artificial você pode navegar pelos artigos que nossa equipe editorial coleta nesta seção deste site.

*️⃣ Link da fonte:

escrito , esta plataforma , os novos resultados ,