Contents

Desbloqueando IA no seu iPhone ou MacBook com o plano inovador da Apple!

A inteligência artificial acabará chegando às torradeiras , mas até que isso aconteça, Manzana É mais um dos gigantes que quer facilitar seu uso em smartphones e laptops. Para isso, sabe-se que a Apple iniciou experiências. Especificamente, ele fez experiências com modelos de linguagem colossais (LLM). São eles que impulsionam a maioria das aplicações de IA atualmente.

Como já vimos na competição, para o máximo desempenho possível do LLM foram implementados aceleradores de IA , como NPUs. Em assuntos mais sérios, as GPUs se concentraram em acelerar a IA combinada com uma grande quantidade de memória VRAM. Isto é necessário para armazenar os pesos dos modelos. Porém, para que o LLM atenda melhor aos usuários comuns, a empresa pretende levar esses modelos de linguagem para dispositivos com capacidade de memória limitada. Estes serão o seu iPhone e MacBook. Agora vem a parte realmente interessante: a solução será o armazenamento.

Apple aproveitará armazenamento para levar Inteligência Artificial AI para sistemas com poucos recursos

/images/Apple-almacenamiento-para-aceleracion-de-IA-LLM-2.jpg

A Apple deseja que esses LLMs atendam melhor aos usuários e os forneçam com eficiência. Esta é uma tarefa complicada se partirmos da premissa de que muitos recursos são necessários. Entre eles os de informática e a já citada memória. Para contornar essas limitações dos aceleradores de IA e grandes quantidades de memória, a Apple revelou seu plano em um documento. Nisso ele revela que sua ideia é armazenar LLM em memória Flash NAND. Ou seja, no próprio armazenamento do dispositivo. Este armazenamento é abundante. Um exemplo claro é que o iPhone 15 Pro é o primeiro dispositivo da linha a oferecer 256 GB de capacidade em seu modelo mais básico.

Para isso, a ideia da Apple consiste em construir um modelo de inferência de custos que se harmonize com o comportamento da memória NAND Flas. Tudo isso é otimizado em duas áreas críticas: redução do volume de dados transferidos da memória flash e leitura de dados em blocos maiores e contíguos. Em vez de armazenar pesos de modelo em DRAM, a Apple quer usar memória flash para armazenar pesos e apenas extraí-los sob demanda para DRAM quando necessário.

Duas técnicas principais são introduzidas nesta estrutura baseada em memória flash:"windowing “e” row-column bundling “. Nada melhor do que usar o próprio documento da Apple para explicar isso.

Em primeiro lugar, a aplicação criteriosa de janelas minimiza efetivamente a transmissão de dados, capitalizando os neurônios previamente ativados, enquanto, simultaneamente, a utilização prudente do agrupamento de linha-coluna, em sintonia com as características de recuperação de dados serializados da memória flash, amplifica o volume de informações extraídas do armazenamento flash.

Juntos, esses métodos permitem executar modelos com até o dobro do tamanho da memória DRAM disponível , com um aumento na velocidade de inferência 4 a 5 vezes e 20 a 25 vezes em comparação com as abordagens ingênuas de carregamento na CPU e GPU, respectivamente. Nossa integração de conhecimento de dispersão, carregamento sensível ao contexto e um design orientado a hardware abre caminho para inferência LLM eficiente em dispositivos com memória restrita.

*️⃣ Link da fonte:

documento da própria Apple ,