Um guia visual para seu funcionamento!
-ChatGPT
O LLM (Large Language Model) a base de um chatbot como o ChatGPT ou qualquer outro produto similar, realiza uma série de processamentos antes de retornar uma resposta ao usuário. Esta atividade de computação pode ser bastante difícil de entender: assim, os autores do projeto LLM Visualization conseguiram alcançar o que até ontem parecia complicado de imaginar, mesmo que remotamente.
Uma ferramenta online totalmente baseada na web como o LLM Visualization permite visualizar em 3D quais parâmetros são armazenados internamente pelo modelo e quais cálculos são gerenciados.
Partindo de um modelo simples, Nano-GPT, para entender como funcionam os LLMs
Nano-GPT é uma versão abreviada do modelo GPT (Generative Pre-trained Transformer), amplamente utilizado pela OpenAI e agora em sua quarta geração (GPT-4), com novos avanços que estão no horizonte há alguns tempo. Este modelo mais compacto pode gerar texto de maneira semelhante ao GPT e é adequado para lidar com tarefas relacionadas à geração de linguagem natural, embora em pequena escala.
Ao clicar no botão Continuar, na coluna esquerda do LLM Visualization, o guia passo a passo da plataforma para descobrir como funciona um modelo como o Nano-GPT. Basta pressionar a barra de espaço para avançar de parágrafo em parágrafo com a representação gráfica atualizada em tempo real no painel direito.
Explore a estrutura do modelo, graficamente
Ao posicionar o ponteiro sobre um elemento específico do modelo 3D, você pode verificar a qual estrutura o objeto pertence, selecionar ou verificar o número de linhas e colunas. Você também pode verificar as fórmulas de cálculo e obter os resultados correspondentes. No caso de estruturas mais complexas, é possível examiná-las mais de perto através do zoom.
Na primeira vez que você faz login no LLM Visualization, o aplicativo da web exibe a estrutura do modelo Nano-GPT que, em sua forma proposta, consiste em apenas 85.000 parâmetros. Experimente e veja o que acontece quando você seleciona GPT-2 (pequeno) como modelo (composto, neste caso, por mais de 124 milhões de parâmetros). Ou ainda, selecionando GPT-3 posterior, que é baseado em aproximadamente 175 bilhões de parâmetros.
O exemplo escolhido para entender como funcionam os LLMs
Um modelo generativo como o Nano-GPT ajuda a apreciar melhor os “fundamentos” dos LLMs. O objetivo do modelo proposto pelo LLM Visualization consiste em colocar uma sequência de seis letras em ordem alfabética: C B A B B C, representando i token. Tokens são unidades individuais da sequência e sua diversidade constitui o vocabulário do modelo. No caso específico, para maior simplicidade, o vocabulário é composto apenas pelos tokens A, B e C, com seus correspondentes índices 0, 1 e 2.
A sequência de letras é, portanto, representada numericamente de acordo com os índices dos tokens correspondentes: 2 1 0 1 1 2. Os números são inseridos no modelo como parte integrante dele.
O modelo usa uma operação chamada “incorporação” para transformar cada número em uma representação vetorial de 48 elementos. A representação, elaborada através do modelo, consiste em uma série de camadas denominadas “transformador”.
O objetivo final do modelo é fazer uma previsão sobre o próximo token na sequência. Ao colocar essa previsão de volta no topo do modelo e repetir o processo, o modelo continua a prever a próxima letra da sequência, iterando o processo e melhorando seu comportamento a cada iteração.
Crédito da imagem de abertura: iStock.com/Shutthiphong Chandaeng
barra lateral inferior relacionada 300
*️⃣ Link da fonte: