Libere seu poder com modelos generativos executados em GPUs de consumo!

2024-01-01 584 words 3 minutes

Contents

-Negócios

Hoje foi apresentado o PowerInfer , um novo projeto que entrega um “mecanismo de inferência” de alto desempenho nas mãos de desenvolvedores e usuários comuns, projetado para suportar LLM (Large Language Models) em PCs equipados com **GPU* * Da gama do consumidor.

A nova ferramenta usa uma rede neural dividida entre GPU e CPU: neurônios “quentes” são ativados em resposta a diferentes entradas, enquanto neurônios “frios” são habilitados com base em entradas específicas. O modelo híbrido proposto pelo PowerInfer garante que os primeiros sejam pré-carregados na GPU enquanto os últimos sejam ativados “a frio” contando com a CPU.

Como o PowerInfer funciona e como ele leva LLMs para GPUs de consumo

Este esquema reduz significativamente os requisitos de memória GPU e transferências de dados CPU-GPU. Tanto é verdade que, em comparação com uma GPU de nível de servidor como NVidia A100, a configuração baseada em PowerInfer e em uma única GPU NVidia RTX 4090 obtém apenas 18% menos desempenho. Conseguir gerar tokens a uma taxa média de 13,20 por segundo, com um valor máximo de quase 30 tokens por segundo.

PowerInfer oferece suporte a modelos como Falcon-40B e a família Llama2 e foi testado em diversas plataformas, incluindo CPUs x86-64 e GPUs NVIDIA no Linux e chips Apple M no macOS. Para começar, você pode seguir as instruções de instalação publicadas no GitHub, obter pesos de modelo e realizar tarefas de inferência. O projeto é lançado com licença MIT e seu potencial pode ser verificado acessando a demonstração online baseada no Falcon(ReLU)-40B-FP16.

A ideia por trás do PowerInfer é inspirada, mais uma vez, no funcionamento do cérebro humano, como costumam fazer outros aplicativos de software. inteligência artificial. Reflete a tendência de algumas sinapses neurais (ou neurônios) serem ativadas com mais frequência do que outras em qualquer modelo de linguagem. Em termos simples, como mencionado acima, existem neurônios “quentes” que são ativados com frequência e neurônios “frios” que variam mais com base em entradas específicas. Essa abordagem equilibrada contribui para um processamento mais rápido de alguns dados.

Preditores adaptativos e quantização

Para otimizar ainda mais seu desempenho, o PowerInfer aproveita os chamados preditores adaptativos, componentes que tentam antecipar ou prever quais neurônios serão ativados em seguida. Os operadores esparsos referem-se a técnicas que gerenciam apenas dados “importantes” ou ativados, reduzindo a complexidade computacional.

Por fim, com o PowerInfer o usuário também pode aproveitar a quantização , uma técnica que reduz a precisão dos dados para reduzir os requisitos de memória e aumentar a eficiência do sistema. INT4 , por exemplo, é uma especificação de quantização que representa dados com 4 bits. Usando essa abordagem, você pode gerenciar os pesos do modelo de forma mais eficaz.

Pesos e downloads de modelos

OS pesos do modelo referem-se aos parâmetros LLM que o PowerInfer explora durante atividades de inferência. Eles incluem os pesos das conexões entre neurônios, viés e outros parâmetros que definem completamente a estrutura e o comportamento do modelo. No geral, representam as informações aprendidas durante a fase de treinamento do modelo e são o espelho das relações semânticas entre os diversos elementos.

Para acessar os pesos do modelo PowerInfer, você pode obtê-los baixando-os do repositório Hugging Face. Esses pesos são armazenados em arquivos com extensão “.powerinfer.gguf”. Especificamente, o modelo sem “q4” como prefixo representa a versão não quantizada do modelo.

Crédito da imagem de abertura: iStock.com – Just_Super

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

PowerInfer , demonstração online baseada em Falcon(ReLU)-40B-FP16 , [baixar eles do repositório Hugging Face](https://github.com/SJTU-IPADS/PowerInfer# model-weights) , Just_Super,