Microsoft revida com Phi-2 contra o poderoso Gemini Nano do Google!

Benjamin Kawaski included in Artificial Intelligence Marques Microsoft Company Llm Microsoft Phi-2

2023-12-14 786 words 4 minutes

Contents

A Microsoft revelou recentemente o Phi-2, um modelo experimental de linguagem de IA projetado para fins exploratórios e capaz de funcionar perfeitamente em vários dispositivos. Esta oferta inovadora procura rivalizar com produtos como o Gemini Nano do Google no mercado.

A apresentação do Phi-2 por Satya Nadella//Fonte: Microsoft

As capacidades da Microsoft em inteligência artificial vão além da mera dependência da OpenAI. Na verdade, a empresa também está ativamente empenhada no desenvolvimento dos seus próprios modelos de linguagem interna. Como prova disso, no ano passado assistimos à introdução do Phi-1, um sistema de IA que demonstrou desempenho superior em tarefas específicas, consumindo menos recursos do que alternativas concorrentes, como o ChatGPT. Com base nesta base, a Microsoft introduziu agora o Phi-2, aderindo a um princípio subjacente semelhante.

Phi-2: muito menos complexo que GPT ou Gemini, mas poderoso

Phi-2 incorpora uma abordagem que busca a excelência através da simplicidade e eficiência, em vez de depender de recursos extensos. Ao contrário de seus equivalentes maiores, como GPT ou Gemini Pro/Ultra, que possuem parâmetros na casa das dezenas ou mesmo centenas de bilhões, este modelo de linguagem compacto opera dentro de uma contagem de parâmetros mais modesta de aproximadamente 2,7 bilhões. Apesar do seu tamanho menor, o Phi-2 ainda demonstra um desempenho impressionante, destacando o potencial para alcançar resultados excepcionais com meios limitados.

Progresso do Phi-2 comparado ao Phi-1.5//Fonte: Microsoft

A Microsoft desenvolveu um modelo chamado Phi-2 que apresenta habilidades notáveis de raciocínio e compreensão linguística, superando outros modelos de linguagem dentro de sua faixa de parâmetros e alcançando resultados comparáveis aos de modelos mais extensos. Na verdade, foi demonstrado que o Phi-2 supera alguns modelos vinte vezes cinco vezes em certos casos. O avanço de grandes modelos de linguagem como este revelou um potencial anteriormente inexplorado para tais sistemas.

Como essa pequena inteligência artificial foi treinada

O objetivo atual da Microsoft é focar na otimização do desempenho de modelos de IA para aplicações de nicho específicas por meio de um processo conhecido como “adaptação de domínio”. Ao utilizar conjuntos de dados restritos, estes modelos personalizados podem ser treinados para se destacarem em tarefas específicas, como tradução de idiomas ou fornecimento de suporte programático. Esta abordagem necessita de ajustes no regime de treinamento do modelo para garantir que os resultados ideais sejam alcançados dentro dos limites do domínio designado.

“Resultados Phi-2 em um problema de física simples, que inclui um cálculo de raiz quadrada aproximadamente correto”//Fonte: Microsoft

Phi-2, um modelo de linguagem desenvolvido pela Microsoft, utilizou dados gerados sinteticamente projetados para transmitir ao modelo raciocínio de bom senso e amplo conhecimento durante seu processo de treinamento. Esta abordagem permite a criação de informações mais refinadas e de alta qualidade em comparação com outros métodos onde os dados são multiplicados e expandidos. Com base no seu antecessor, Phi-1.5, que possui impressionantes 1,3 mil milhões de parâmetros, o Phi-2 continua a melhorar as suas capacidades através da precisão e profundidade. De acordo com o blog da Microsoft, o treinamento do Phi-2 durou 14 dias usando 96 GPUs Nvidia A100, resultando em um investimento de aproximadamente US$ 20.000 por placa gráfica devido ao seu foco específico no treinamento de modelos de inteligência artificial.

O grau de toxicidade do Phi-2 em comparação com outros LLMs para várias comunidades//Fonte: Microsoft

A Microsoft sugeriu que o processamento meticuloso de dados upstream pode levar a um modelo menos prejudicial. Eles observaram que o Phi-2 apresenta um comportamento mais favorável do que modelos alternativos de código aberto, apesar de não ter recebido supervisão humana direta durante o treinamento.

Um modelo de IA que você provavelmente não usará

Phi-2 apresenta eficiência superior em comparação com o modelo Mistral AI e LLaMA-2, independentemente de possuírem 7 ou 13 bilhões de parâmetros. Na verdade, suas capacidades vão além daquelas oferecidas pela versão de 70 bilhões de parâmetros do Meta, particularmente no tratamento de tarefas de raciocínio em várias etapas, como codificação e matemática. Da mesma forma, quando comparado ao Gemini Nano, a versão mais compacta do LLM do Google que foi lançada recentemente, o Phi-2 continua a superar ou igualar seu desempenho, mantendo um tamanho menor.

“Desempenho médio em benchmarks agrupados versus SLMs de código aberto populares”//Fonte: Microsoft

Parece que a Microsoft não tem intenção de lançar o Phi-2 ao público em geral através de uma plataforma acessível como o Copilot. Em vez disso, vêem-no como um campo de testes adequado, principalmente para investigadores, com interesses específicos no avanço da interpretabilidade mecanicista, no reforço de medidas de segurança e na realização de ensaios experimentais em várias tarefas dentro do seu domínio. Felizmente, o Phi-2 pode ser acessado por meio do Azure AI Studio, que serve como solução de modelagem de IA da empresa.

*️⃣ Link da fonte:

seu blog ,