Contents

Aumento de desempenho em C++ de Justine Tunney!

Contents

/images/manu23_wallapaper_Logo_text_Justine_with_a_llama_cf055adf-6565-42c1-8360-de63a430a211-1.png

@este site – 1º de abril de 2024

A revolução da IA já existe há algum tempo, mas executar os modelos de linguagem mais recentes, como llama.cpp em sua bicicleta, requer energia. É aí que entra Justine Tunney, hacker e ex-programadora do Google, que acaba de lançar novos kernels de álgebra linear para aumentar o desempenho do llama.cpp.

Concretamente, ela reescreveu as rotinas que fazem multiplicações de matrizes , ou seja, as operações no coração das redes neurais e usando as mais recentes instruções vetoriais AVX-512 e ARM dotprod, conseguiu multiplicar a velocidade de execução por 5 em processadores recentes da Intel, AMD e ARM.

Mas isso não é tudo, ela também trabalhou na otimização de memória. Já se foi o tempo em que os cálculos eram retardados pelos acessos à RAM. Graças ao uso inteligente do cache L2 e da pré-busca, agora é possível dividir o tempo de carregamento por 2 dados.

Como resultado, o llama.cpp e outros modelos compatíveis funcionam perfeitamente, mesmo em configurações modestas. Chega de núcleos CUDA superfaturados, um bom e velho processador com um pouco de RAM é suficiente. O suficiente para democratizar o acesso à IA sem quebrar o banco, especialmente porque seu código está disponível em seu GitHub. Ele é escrito em C\+\+ com zero dependências externas e pode ser compilado em Linux, macOS, Windows, FreeBSD e até SerenityOS.

Mas Justine não planeja parar por aí. Ela já está trabalhando no suporte de novos formatos de dados como FP16 e BF16 para reduzir ainda mais o consumo de memória. Em última análise, ela espera executar as IAs mais exigentes em um Raspberry Pi! Legal certo?

Neste cenário, existem duas facções distintas que disputam o domínio no domínio da tecnologia informática. Por um lado, temos gigantes da indústria como a Nvidia, que depositam a sua fé em aceleradores gráficos proprietários como forma de impulsionar a inovação. Por outro lado, existe um grupo de indivíduos dedicados composto por hackers e bibliotecários que procuram manter o controle sobre suas máquinas através do uso de código aberto e altamente otimizado.

Enquanto isso, estendo um convite aberto para você experimentar pessoalmente esses grãos e testemunhar a distinção discernível que eles trazem. Esta abordagem incorpora a essência do avanço tecnológico – alargar o alcance dos recursos especializados a um público mais vasto, democratizando assim a acessibilidade.

Fonte

-Inteligência artificial

Descubra um artigo aleatório…

Compartilhe este artigo

*️⃣ Link da fonte:

Justine Tunney , seu GitHub ,