Contents

Modelos de código aberto superam soluções proprietárias

Essas designações específicas, LlaMA, Flan-T5-XXL e Mixtral 8x7B, podem parecer um tanto intimidadoras à primeira vista; no entanto, eles compartilham um ponto em comum em sua função como ferramentas avançadas de modelagem de linguagem projetadas especificamente para processamento automatizado de linguagem natural. A utilização destes recursos permitiu o desenvolvimento de aplicações generativas de inteligência artificial, incluindo ChatGPT para comunicação escrita e Dall-E para fins ilustrativos.

A característica distintiva partilhada por cada um destes três modelos de linguagem reside na sua disponibilidade como software de código aberto. Os usuários têm a liberdade de examinar a base de código subjacente para obter informações sobre seus mecanismos de funcionamento. O modelo Flan-T5-XXL pode ser acessado através da plataforma Hugging Face, enquanto o Mixtral 8x7B pode ser baixado de um arquivo torrent, e o modelo LlaMA reside no site Meta, que serve como organização-mãe do Facebook.

Embora se acreditasse anteriormente que os modelos de linguagem proprietária tinham uma vantagem significativa sobre os seus homólogos de código aberto em termos de desempenho, um exame recente das capacidades do modelo de linguagem grande (LLM) revelou um padrão emergente. Especificamente, parece haver uma redução da lacuna entre os modelos de código aberto, como o LlaMA e o Mixtral, que não partilham publicamente os seus fundamentos técnicos, e os LLM desenvolvidos de forma privada.

Os modelos proprietários mencionados acima ganharam reconhecimento considerável. Entre essas opções merecem destaque as soluções fornecidas pelo Google, como Chinchilla, PaLM e Gemini, além do Claude, produto desenvolvido pela Anthropic Technologies. Além disso, não podemos ignorar as inúmeras iterações do GPT, particularmente o ChatGPT baseado em OpenAI, que também apresenta um desempenho impressionante em relação aos seus homólogos de código aberto, como evidenciado pela representação gráfica do estudo acima mencionado.

/images/ark-open-source-llm-proprietaire-prive-ferme-libre-1024x521.jpg Na corrida pela IA generativa, o código aberto parece estar alcançando os modelos fechados.//Fonte: Ark

Permanece incerto quanto à longevidade desta tendência. De acordo com o gráfico apresentado, os grandes modelos de linguagem de código aberto (LLMs) podem superar os seus homólogos desenvolvidos de forma privada num curto período. A diferença entre eles parece estar a diminuir de forma constante, indicando que poderão potencialmente cruzar-se nos próximos dois a três anos, desde que não haja perturbações significativas nas suas respectivas trajetórias.

A investigação acima mencionada foi conduzida sob a liderança de Catherine Wood, fundadora e diretora-geral da Ark Investment Management, uma empresa americana focada em fundos negociados em bolsa em vários setores, com especial ênfase na inteligência artificial. Além disso, a Sra. Wood tem estado ativamente envolvida na exploração do reino da criptomoeda.

O código aberto avança em relação aos modelos fechados

Yann LeCun, Diretor Científico de Inteligência Artificial da Meta, deu as boas-vindas calorosamente aos ilustres convidados em sua chegada. Em resposta a uma declaração recente feita em 14 de dezembro, o Dr. LeCun expressou eloquentemente sua crença de que os modelos de IA de código aberto superarão em breve seus equivalentes proprietários. Como defensora e praticante desta filosofia, a própria organização do Dr. LeCun abraçou totalmente o conceito de abertura no que diz respeito à IA Generativa. Na verdade, ambos os modelos LlaMA apresentados no artigo de pesquisa pertencem à Meta.

Catherine Wood observou um desenvolvimento positivo no desempenho dos modelos de IA de código aberto quando comparados com os seus homólogos fechados. Em particular, embora o seu surgimento possa ter sido tardio, o progresso do modelo de IA de código aberto é digno de nota. Curiosamente, o sistema proprietário de IA conhecido como Grok, que foi introduzido por Elon Musk, parece estar atrasado em termos de oportunidade. No entanto, a recepção geral em relação a Grok parece um tanto inconsistente e mista.

Lançada em dezembro e depois revisada para incorporar modelos mais atuais como Gemini e Mixtral, esta pesquisa examina o desempenho desses modelos ao longo do tempo ao longo do eixo x e em um departamento acadêmico específico no eixo y. O foco está na compreensão do erro logarítmico absoluto em termos da capacidade de processar múltiplas tarefas em sistemas de linguagem complexos.

/images/gemini-1-1024x576.jpg O novo modelo do Google, Gemini, é levado em consideração.//Fonte: Google

Nas palavras de Jozef Soja, participante do estudo, “cada melhoria incremental subsequente no desempenho torna-se cada vez mais difícil de alcançar em comparação com o seu antecessor”. Esta abordagem permite-nos demonstrar “até que ponto o GPT-4 se destaca atualmente entre outros modelos”. Como principal produto da OpenAI, o GPT-4 e sua variante aprimorada, o GPT-4 Turbo, continuam a se destacar.

Vale ressaltar o desempenho impressionante dos modelos open source recentes em relação ao seu tamanho compacto. Nesse aspecto, o Mixtral supera o GPT-3.5 neste benchmark com um número significativamente menor de parâmetros. Notavelmente, o GPT-3.5 foi lançado no início de 2020, enquanto o Mixtral fez sua estreia no final de 2023.

A pesquisa de Ark fornece uma perspectiva limitada sobre o estado atual do campo, uma vez que inclui apenas certos modelos de linguagem na sua análise. Especificamente, este estudo omite qualquer consideração de modelos de código aberto ou proprietários que não faziam parte do gráfico. Apesar desta limitação, o foco está principalmente em modelos proeminentes desenvolvidos por grandes empresas de tecnologia como Google, Meta (anteriormente conhecida como Facebook) e OpenAI, que recebeu apoio significativo da Microsoft.

Além disso, existem empresas menores, como Claude e Mixtral, juntamente com alternativas estrangeiras menos conhecidas, como o Instituto de Inovação Tecnológica dos Emirados Árabes Unidos dos Emirados Árabes Unidos, que desenvolveu o modelo de linguagem Falcon 180B, ou o 01.ai da China, que criou o Yi-34B. A lista pode se expandir ainda mais à medida que novas informações forem disponibilizadas se o gráfico permanecer atualizado.

Os resultados da investigação lançam dúvidas sobre a sustentabilidade dos sistemas fechados ao longo do tempo, considerando as oportunidades mais promissoras apresentadas pelas alternativas de código aberto. Tal mudança de paradigma pode reorientar o caminho seguido por organizações como a OpenAI, que outrora rejeitou os méritos de abraçar os princípios do código aberto. O curso dos acontecimentos poderá, em última análise, justificar aqueles que defendem esta abordagem e demonstrar a sabedoria de adoptar uma estratégia de código aberto.

Descubra este site\+ da cache 1 11822/post_tag

*️⃣ Link da fonte:

Blank-T5-XXL , modelo LlaMA , foram realizados , ele reagiu , que participou do estudo,