Claude enfrenta o ChatGPT em uma batalha pela supremacia!

2024-03-28 562 words 3 minutes

Contents

A dinâmica da dinâmica de poder no domínio da inteligência artificial gerativa conversacional evoluiu significativamente ao longo do tempo, como evidenciado pela recente reviravolta em que Claude 3 Opus, um extenso modelo de linguagem criado pela Anthropic, ultrapassou o GPT-4 da OpenAI na Chatbot Arena, um favorito plataforma de crowdsourcing utilizada por pesquisadores de IA para avaliar as capacidades comparativas de agentes linguísticos inteligentes.

O Chatbot Arena serve como uma plataforma de avaliação para inteligência artificial gerada por conversação, apresentando aos usuários dois grandes modelos de linguagem distintos para escolher. Os modelos específicos permanecem não divulgados, permitindo aos participantes avaliar cada opção de acordo com seus próprios critérios subjetivos. Através do processo de referência cruzada e agregação de milhares de comparações, o Chatbot Arena determina os modelos mais eficazes construindo uma classificação hierárquica que evolui ao longo do tempo através de atualizações contínuas.

O modelo menor da Anthropic, o Haiku, recebeu elogios consideráveis por seu desempenho excepcional, além das realizações notáveis alcançadas por seu principal produto, o Claude 3 Opus.

Na verdade, nas comunidades académicas e de desenvolvimento, o surgimento deste fenómeno tem sido considerado um desenvolvimento significativo. A rápida disseminação dos memes “The King is Dead” e “RIP GPT-4”, juntamente com comparações das diferenças de desempenho entre as duas grandes arquiteturas de modelos de linguagem na competição de chatbot, gerou considerável interesse e discussão.

O rei está morto

RIP GPT-4 Claude opus # 1 ELo

Haiku vence GPT-4 0613 e Mistral grande Isso é uma loucura, quão barato e rápido é https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH

Nick Dobos (@NickADobos) 26 de março de 2024

Na verdade, desde a sua introdução na Chatbot Arena em maio de 2023, o GPT-4 e suas variantes têm mantido consistentemente o primeiro lugar no ranking. Notavelmente, os atuais modelos de melhor desempenho disponíveis, nomeadamente Opus para tarefas complexas e Haiku para eficiência, vêm de uma empresa diferente da OpenAI.

Apesar do fato de haver quatro iterações do GPT-4 apresentadas na classificação, é digno de nota que as variantes Claude 3 do Anthropic experimentaram uma ascensão consistente na tabela de classificação desde que foram lançadas na semana passada.

A operação da plataforma Chatbot Arena é confiada à Large Model Systems Organization, uma organização comprometida em promover um ambiente inclusivo que envolve ativamente estudantes e membros do corpo docente de diversas instituições de prestígio, como a Universidade da Califórnia-Berkeley, a UC San Diego e a Carnegie Mellon University.

A atual plataforma tem um valor significativo no domínio da inteligência artificial, pois facilita a avaliação da eficiência e da qualidade dos resultados dos chatbots de IA, o que muitas vezes apresenta desafios no fornecimento de quantificação objetiva devido à sua variabilidade considerável. Consequentemente, as avaliações estatístico-subjetivas provam ser um método mais prático para avaliar esses aspectos matizados em comparação com confiar apenas em testes numéricos que medem o “conhecimento” de um LLM ou a proficiência na realização de exames específicos.

O tão aguardado lançamento do sucessor do GPT-4 está previsto para o próximo verão, o que pode levar a mudanças significativas no cenário competitivo da grande indústria de modelos de linguagem. Dado o actual nível de concorrência neste domínio, bem como a natureza dinâmica dos esforços contínuos de investigação e desenvolvimento, pode-se razoavelmente presumir que haverá uma concorrência robusta nos próximos meses e anos.

*️⃣ Link da fonte:

https://t.co/XWmvTE6h75 , pic.twitter.com/fAwzJScLTH , 26 de março de 2024 , medição de desempenho ,