Um mergulho profundo no GPT-3, BERT e muito mais!

Alicia Fernandez included in Artificial Intelligence Company

2023-12-06 2645 words 13 minutes

Contents

Utilizar os recursos de entidades como ChatGPT, Google Bard e Meta AI, que abrangem Large Language Models (LLMs), representa um componente crucial no domínio dos sistemas de comunicação textual orientados por inteligência artificial. Os LLMs funcionam como os principais impulsionadores desses bots interativos avançados, adquirindo progressivamente conhecimento e compreensão por meio de processos de aprendizagem contínuos.

O advento da Inteligência Artificial (IA) deu origem a uma infinidade de questões sobre sua funcionalidade enigmática. Um desses casos é o ChatGPT, que levanta questões sobre como funciona a IA generativa textual. As complexidades destes sistemas permanecem envoltas em mistério, mas tornaram-se cada vez mais predominantes na tecnologia moderna.

Na verdade, abaixo da superfície do ChatGPT existe um poderoso modelo de aprendizado de máquina conhecido como “LLM.

O que significa “LLM”?

Como funcionam os LLMs, os motores da inteligência artificial?

Um LLM, ou modelo de linguagem grande, é essencialmente uma rede neural artificial complexa projetada de acordo com a estrutura e funcionalidade dos neurônios biológicos. É composto por neurônios computacionais individuais, cada um equipado com entradas semelhantes a dendritos e saídas correspondentes a um axônio. Ao empregar regras predeterminadas, esses neurônios formais convertem sinais de entrada em respostas de saída. Tais neurônios artificiais são organizados em redes interconectadas baseadas em vários padrões de conexão, alguns dos quais possuem pesos maiores ou executam tarefas de forma mais consistente.

Diagrama simplificado de uma rede neural//Fonte: Wikipedia

O mérito desta estrutura computacional reside na sua capacidade de autocorreção, um atributo que lembra a cognição animal; esse fenômeno é conhecido como “aprendizado de máquina”. No entanto, através de avanços neste campo conhecido como “aprendizado profundo”, o potencial de aumento é exponencial. Este método elimina a necessidade de entrada manual por humanos e pode amplificar a potência geral do sistema por um fator de dez.

Diagrama da estrutura de um neurônio artificial//Fonte: Wikipedia

Para que um Large Language Model (LLM) adquira efetivamente conhecimento e melhore seu desempenho, é necessário fornecer-lhe grandes quantidades de dados de texto. Um recurso que pode ser utilizado para esse fim é a Wikipedia, conforme afirma a Wikimedia Foundation, que possui mais de 58 milhões de artigos em aproximadamente 300 idiomas diferentes. Além disso, existem conjuntos de dados textuais especializados projetados especificamente para o treinamento de LLMs, alguns dos quais podem ser disponibilizados publicamente.

A eficácia da aprendizagem depende de um processo conhecido como rotulagem de dados, que desempenha um papel essencial no domínio da inteligência artificial. A rotulagem envolve fornecer uma resposta a uma consulta específica, referindo-se a informações predefinidas. Em relação ao texto, exemplos de rotulagem podem incluir a classificação de uma peça como “precisa” no que diz respeito à sua linguagem, “acessível” no que diz respeito à sua terminologia, ou “ofensiva” no que diz respeito ao seu conteúdo.

O processo de comunicação entre um usuário e um chatbot envolve a conversão de entradas textuais em representações numéricas através da utilização de um Modelo de Linguagem (LLM). Essa transformação ocorre por meio de análise, em que a entrada é transformada em um conjunto de valores vetoriais correspondentes. Notavelmente, essas representações vetoriais são chamadas de “vetores”. A capacidade de gerar tais resultados é facilitada pela vasta gama de informações armazenadas na estrutura matemática do LLM. Consequentemente, quanto maior for o comprimento do vector resultante, mais complexo se torna o modelo subjacente, aumentando assim a sua eficiência no processamento de dados linguísticos. Essencialmente, esta representação numérica serve como uma forma de formalismo matemático que permite a replicação do uso da linguagem humana.

O que a arquitetura do Transformer mudou para o aprendizado profundo

Em 2017, ocorreu um avanço inovador no domínio da inteligência artificial, conhecido como o desenvolvimento da arquitetura Transformer. Esta conquista inovadora representa o culminar de extensos esforços de pesquisa e desenvolvimento que abrangem vários anos, compreendendo uma gama complexa de procedimentos técnicos.

O Transformer é uma arquitetura de inteligência artificial de ponta, adaptada principalmente para tarefas de processamento de linguagem natural. Ao contrário das redes neurais convencionais, como as Redes Neurais Recorrentes, que analisam as entradas sequencialmente do início ao fim de uma frase, o Transformer tem a capacidade de processar simultaneamente essas entradas em paralelo, reduzindo consideravelmente o tempo de treinamento. Ao minimizar as horas de treinamento, pode-se treinar mais modelos com os mesmos recursos computacionais ou ampliar a gama de modelos treinados dentro das restrições de custos operacionais.

Diagrama de como funciona a arquitetura do Transformer//Fonte: Wikipedia

O Duplo Enigma”, demonstra sua utilidade através do exame da frase “Tenho um irmão, ele é arquiteto”. Neste caso, o uso de “irmão” e “ele” para se referir ao mesmo indivíduo permite uma interpretação direta. Porém, ao considerar a afirmação “quando meu irmão ficou bravo com o companheiro dele, eu admiti para ele que nunca gostei dele”, os termos “meu irmão” e “companheiro dele” se distanciam um do outro. É aqui que reside a eficácia do mecanismo de autoatenção do Transformer, que dá conta dessas relações remotas dentro da estrutura contextual. Operando com base nos princípios de “máscaras” e

Existem duas variedades distintas de máscaras:

-OS “filtros de causalidade” que modificarão o peso de determinados vetores dependendo do contexto dado pela frase; -OS"filtros de preenchimento"que garantem que todas as frases tenham o mesmo comprimento matemático (quantos números nelas), adicionando palavras desnecessárias não levadas em consideração no processamento.

Os tokens empregados em redes neurais permitem a compreensão de palavras individuais por meio de processamento sequencial, ao mesmo tempo que estabelecem relações entre elas.

Os primeiros modelos de linguagem “reais”: GPT e BERT

Dois grandes modelos de linguagem (LLMs) inovadores, nomeadamente GPT e BERT, foram introduzidos próximos um do outro durante o ano de 2018. Desenvolvidos pela OpenAI e DeepMind respectivamente, esses modelos utilizaram a arquitetura inovadora do Transformer para provocar uma transformação significativa dentro do domínio dos LLMs.

Diagrama de como funciona o treinamento BERT//Fonte: “BERT: Pré-treinamento de transformadores bidirecionais profundos para compreensão de linguagem”

Sua proficiência na compreensão da linguagem natural e na criação de textos é altamente impressionante. Simplesmente fazendo perguntas como “resumir”, “traduzir” ou “escrever” para eles, eles são capazes de realizar várias tarefas sem problemas. Além disso, isto marca um afastamento significativo das práticas anteriores, onde os modelos linguísticos eram treinados especificamente para tarefas individuais; em vez disso, estes modelos foram treinados numa extensa gama de dados linguísticos, cuja extensão total permanece incerta.

Por que falamos sobre “parâmetros” para um modelo de linguagem?

Ao discutir Grandes Modelos de Linguagem (LLMs), frequentemente encontramos o conceito de “parâmetros”. É amplamente aceito que aumentar o número de parâmetros leva a maior eficiência e potência para tais modelos. Embora isto seja verdade até certo ponto, é importante notar que esta relação não é universal. As redes neurais, que formam a base da maioria dos LLMs, consistem em numerosos nós interconectados que se estendem por múltiplas camadas. De acordo com a Amazon Web Services, “cada nó dentro de cada camada está vinculado a todos os nós da camada subsequente”. Essas conexões vêm com seus próprios pesos e deslocamentos exclusivos, chamados coletivamente de parâmetros do modelo. Consequentemente, é viável que os LLMs possuam dezenas ou mesmo centenas de bilhões de parâmetros. Um aumento na contagem de parâmetros permite que esses sistemas lidem melhor com

Para que são usados os modelos de linguagem grande?

A característica saliente dos grandes modelos de linguagem, como o GPT-4, reside na sua versatilidade e adaptabilidade. Ao contrário dos modelos especializados que são adaptados para tarefas ou domínios específicos, os LLMs carecem de uma finalidade predeterminada porque não foram ajustados para nenhuma capacidade específica. Em vez disso, sua arquitetura permite que aprendam com grandes quantidades de dados, estimando a probabilidade de uma sequência de saída dada uma sequência de entrada, aproveitando o poder de técnicas de aprendizagem profunda, como RNNs e Transformers.

Emiliano Vittoriosi no Unsplash

Se você pedir ao ChatGPT para lhe contar uma história, uma história infantil por exemplo, provavelmente começará com “Era uma vez”, já que é muito clássico. Então a probabilidade do que acontece a seguir é “em um reino”, ou “um princesa ”, algo assim. Na realidade, LLMs não “entendem” nem os textos nos quais foram treinados ou o que está escrito para eles. LLMs são simplesmente sistemas estatísticos, aplicados à linguística. Eles não determinam apenas as palavras, mas também toda a sintaxe, conjugação e pontuação que compõem as línguas.

O sucesso de um LLM pode ser atribuído a vários fatores, incluindo o número de parâmetros presentes no sistema. De modo geral, um maior número de parâmetros equivale a maior precisão e exatidão nas respostas do modelo. Além disso, expandir o escopo do modelo por meio do aumento da contagem de parâmetros muitas vezes revela novas funcionalidades, como tradução, simulação de emoções e até geração de conteúdo humorístico. Este fenómeno foi descrito eloquentemente por Daniel Andler, que observou que “certas propriedades surgem de uma magnitude específica, embora ainda não possamos compreender completamente os seus mecanismos subjacentes.

Alguns exemplos de perguntas para fazer ao ChatGPT via Bing//Fonte: Captura de tela

A eficácia de um LLM em responder com precisão às consultas depende em grande parte de vários factores, tais como os recursos computacionais disponíveis para o seu funcionamento, a qualidade dos dados de entrada fornecidos pelos utilizadores, e a extensão dos dados de formação utilizados para o desenvolvimento. Além disso, a proficiência dos dados utilizados para treinamento desempenha um papel crucial na determinação da precisão das respostas geradas pelo sistema. Um conjunto de dados abrangente combinado com uma rotulagem meticulosa contribui significativamente para melhorar a interpretabilidade dos resultados do modelo. Consequentemente, fornecer solicitações específicas produz resultados mais precisos e específicos do contexto do LLM.

Quais são os principais modelos de linguagem que existem?

Após o surgimento dos modelos iniciais de linguagem proeminentes há algum tempo, numerosas iterações subsequentes foram desenvolvidas. Uma variedade de exemplos existentes de inteligência artificial generativa textual pode ser encontrada abaixo para referência.

OpenAI GPT

Inegavelmente, a GPT ganhou amplo reconhecimento pelo seu papel fundamental no desencadeamento do surgimento da inteligência artificial. Sua influência remonta à sua encarnação mais antiga, que lançou as bases para iterações subsequentes, como o GPT-4, recentemente revelado pela OpenAI no início deste ano. Esta mais nova iteração apresenta maior confiabilidade, criatividade e adaptabilidade a comandos complexos, tudo graças à sua capacidade expandida de processar informações contextuais adicionais, incluindo elementos visuais. Consequentemente, o GPT-4 se destaca como uma prova dos avanços contínuos na tecnologia de IA.

GPT-4 imaginado por Midjourney//Fonte: Midjourney deste site

Lamentavelmente, as dimensões, configuração e método de treinamento do OpenAI permanecem desconhecidos, apesar de seu apelido sugerir abertura. No entanto, as especulações sugerem que pode compreender surpreendentes 100.000 mil milhões de parâmetros, ultrapassando os 175 mil milhões do GPT-3. Atualmente, os usuários podem acessar o GPT-3.5 através do ChatGPT gratuitamente, enquanto o GPT-4, com recursos aprimorados, é exclusivo para assinantes premium do ChatGPT Plus. Além disso, o Copilot, o chatbot com tecnologia de IA da Microsoft, oferece suporte a GPT-4, mas com capacidade reduzida.

GooglePaLM

Como entidade digital eminente, o Google demonstra considerável entusiasmo em relação à inteligência artificial. O Modelo de Linguagem Grande mais potente da corporação é denominado PaLM, que significa “Modelo de Linguagem Pathways”. Com quase 540 bilhões de parâmetros, a iteração atual do PaLM, designada como PaLM 2, opera dentro de um limite de parâmetros de 340 bilhões. Este modelo avançado abrange uma ampla gama de recursos, como raciocínio matemático, geração de código e tradução. No entanto, atualmente, o acesso ao PaLM 2 é restrito apenas a desenvolvedores selecionados. Além do PaLM, a DeepMind, subsidiária do Google, liderou o desenvolvimento do Med-PaLM, um modelo de linguagem personalizado projetado especificamente para responder a dúvidas relacionadas à saúde. Notavelmente,

Google PaLM 2//Fonte: Google

O chatbot do Google, Bard, utiliza LaMDA em vez de PaLM para aplicativos de diálogo. Com uma contagem colossal de 137 bilhões de parâmetros, esse modelo de linguagem demonstra notável eficiência, suscitando a resposta de um engenheiro do Google que acreditava que ele possuía sensibilidade.

LLaMA por Meta

A Meta entrou recentemente no mercado de grandes modelos de linguagem (LLMs) com seu produto LLaMA, que atua tanto como agente de conversação quanto como assistente de programação. Com um tamanho impressionante de 65 bilhões de parâmetros, este modelo está preparado para causar impacto na indústria. De forma emocionante, o LLaMA 2 foi anunciado pela Meta e pela Microsoft, oferecendo aos usuários acesso a um LLM gratuito e de código aberto que estará disponível através do Azure AI, Windows e até mesmo dispositivos móveis com chips Qualcomm. Esta nova iteração do LLaMA foi treinada com 40% mais dados do que seu antecessor, tornando-se um avanço emocionante no campo da inteligência artificial.

O Meta AI Assistant//Fonte: Meta

Recentemente, houve numerosos casos de um sistema de IA funcionando de forma eficaz em um computador pessoal padrão. Atualmente, nenhum dos serviços Meta utiliza esta tecnologia, apesar do Meta ter introduzido seu próprio produto de IA conhecido como Meta AI, que em breve estará acessível através de várias plataformas como WhatsApp, Messenger, Instagram, bem como produtos proprietários da Meta Ray.-Ban e Quest 3. Este novo assistente de IA é semelhante a outras ofertas, como Copilot ou My AI do Snapchat, fornecendo aos usuários um companheiro útil para suas tarefas diárias.

Grok de xAI (Elon Musk)

Em julho de 2023, Elon Musk fundou a xAI, organização focada no desenvolvimento de Inteligência Artificial. Pouco tempo depois, uma das suas principais iniciativas, Grok, um modelo de linguagem com 33 mil milhões de parâmetros, emergiu como um concorrente formidável na indústria. Distinguindo-se dos seus pares através da sua abordagem pouco ortodoxa, Grok adoptou um comportamento rebelde, evitando restrições convencionais e incorporando elementos como inteligência e sarcasmo nas suas respostas. Essa característica única fica evidente na produção textual produzida por Grok, conforme evidenciado pelas capturas de tela compartilhadas pelos membros do xAI.

Os resultados do Grok-1 comparados com outros LLMs//Fonte: este site

Grok está atualmente inalcançável, mas espera-se que se torne acessível nos próximos meses. Atualmente, apenas um número limitado de usuários baseados nos EUA tem privilégios suficientes para testar suas capacidades.

Linguagem Samsung Gauss

Apresentando a mais recente adição da Samsung à sua linha, o Gauss Language LLM, que serve como força motriz por trás do Galaxy AI, um assistente virtual personalizado que se integrará perfeitamente com futuras iterações da série de smartphones Galaxy. O LLM leva o nome do estimado matemático e cientista Carl Friedrich Gauss, conhecido por seu trabalho inovador sobre distribuição normal, que desempenha um papel essencial no campo do aprendizado de máquina.

A Gauss Language permite uma infinidade de funcionalidades, como tradução de documentos, geração de resumos, composição de e-mails e ainda oferece suporte para empreendimentos de programação de computadores por meio de sua iteração especializada conhecida como Samsung Gauss Code. No entanto, ainda não está claro quais são as capacidades específicas que a última encarnação da inteligência artificial baseada em texto da Samsung implica.

Titan: o modelo da Amazon dedicado aos profissionais

A Amazon revelou seu modelo de linguagem proprietário, Titan, durante o mês de abril do ano passado. Embora o Titan tenha a capacidade de compreender e produzir texto, ainda não está totalmente operacional como um produto independente. Em vez disso, a Amazon está comercializando o Titan como um alicerce para empresas que buscam desenvolver suas próprias soluções de inteligência artificial baseadas em texto. Atualmente, o acesso ao Titan é restrito, mas a Amazon planeja ampliar seu alcance nos próximos meses.

IA generativa na Amazon//Fonte: Amazon

A mais recente iteração da Amazon de seu assistente virtual com tecnologia de IA, conhecido como Alexa LLM, foi introduzida recentemente com o objetivo de aprimorar a inteligência e os recursos da tecnologia ativada por voz da empresa. A data de lançamento desta versão atualizada do Alexa está projetada para 2024.

Nas próximas semanas e meses, prevê-se que modelos adicionais serão concretizados. Notavelmente, o Google revelou o seu projeto conhecido como Gemini, enquanto outros participantes da indústria podem apresentar as suas próprias propostas distintas.

*️⃣ Link da fonte:

de acordo com a Fundação Wikimedia ,