Contagem de 900 mil núcleos e 125 PetaFLOPs!

2024-03-15 728 words 4 minutes

Contents

-Negócios

Cerebras, empresa com sede na Califórnia especializada no projeto e fabricação de supercomputadores destinados a dar suporte a aplicações focadas em inteligência artificial, anunciou o lançamento de sua nova geração de chips de IA. Eles prometem o dobro do desempenho da geração anterior, consumindo a mesma quantidade de energia.

Batizado de WSE-3 (Wafer Scale Engine 3), o chip tem formato quadrado medindo 21,5 centímetros de cada lado e usa quase um wafer de silício inteiro de 300 milímetros para produzir uma única amostra. A Cerebras mantém assim a liderança na produção do maior chip de sempre.

Em termos de transistores, o WSE-3 contém 4.000 bilhões deles, com um aumento de mais de 50% em relação à geração anterior, graças ao uso de tecnologias de produção mais avançadas do que no passado. Um único chip também conta muito 900.000 núcleos e é capaz de expressar uma potência igual a 125 PetaFLOPS.

O que muda com o WSE-3, chip mais poderoso da Cerebras para inteligência artificial

Em primeiro lugar, a Cerebras parece seguir a lei de Moore: o primeiro chip da empresa estreou em 2019 e foi construído usando o processo de fabricação de 16 nm da TSMC. O WSE-2 chegou em 2021, apresentando o processo TSMC 7nm, enquanto o WSE-3 foi ainda mais longe em termos de miniaturização atingindo 5 nm.

O número de transistores mais que triplicou desde o primeiro megachip da marca Cerebras. Também houve uma clara melhoria em termos de memória on-chip e largura de banda: WSE-3 usa 44 GB, tem largura de banda de memória de 21 Petabyte/s e pode usar até 214 Petabit/s em termos de interconexão. O salto registrado em termos de operações de ponto flutuante por segundo (PetaFLOPS), entretanto, superou todos os outros valores.

Assim, o WSE-3 já está sendo instalado em um data center localizado em Dallas (Texas, EUA): suportará o funcionamento de um supercomputador capaz de processar 8 ExaFLOPS. Somente em junho de 2023 começamos a falar em “geração ExaFLOP” e agora a Cerebras está lançando um chip capaz de lidar com algo como 8*10 18 operações de ponto flutuante por segundo , ou um 8 seguido de 18 zeros.

Na prática, o WSE-3 pode ser usado para treinar modelos generativos capazes de contar com 24.000 bilhões de parâmetros, um valor que impressiona quando comparado com o de LLM (Large Language Models) mais “impressionantes” (até 1.500 bilhões parâmetros).

CS-3 é o supercomputador construído com o novo chip AI

Porta-vozes da Cerebras explicam que o supercomputador lançado em Dallas usará 64 novos chips, combinados para formar um único sistema CS-3. Basta dizer que é possível emparelhar até 2.048 WSE-3s para ampliar significativamente as habilidades computacionais de cada sistema.

Teoricamente, um único chip WSE-3 seria equivalente, para operações relacionadas à IA, a 62 GPUs NVIDIA H100.

Treinar um LLM amplamente utilizado como Llama 70B do zero levaria apenas um dia. O termo “70B” refere-se ao número de parâmetros presentes no modelo ou aos “ pesos” atribuídos aos nós dentro da rede neural artificial durante o processo de treinamento. Eles são essenciais para o funcionamento do modelo, pois influenciam a capacidade da rede neural de aprender e gerar saídas precisas.

O acordo com a Qualcomm

Embora os computadores Cerebras sejam projetados para otimizar e acelerar as fases de treinamento, o CEO da Cerebras, Andrew Feldman, afirma que a verdadeira limitação está nos mecanismos de inferência , ou seja, o momento em que o modelo generativo é realmente executado.

Com base nas projeções fornecidas pela empresa, se todos os indivíduos em todo o mundo utilizassem o ChatGPT, as despesas anuais poderiam atingir potencialmente um bilião de dólares, excluindo o consumo substancial de energia associado ao funcionamento de um sistema tão extenso. É importante notar que os custos operacionais aumentarão proporcionalmente ao tamanho do modelo e ao número de usuários ativos.

Cerebras e Qualcomm firmaram uma colaboração cujo objetivo é começar a reduzir o custo de inferência por um fator de 10. A solução adotada envolverá a aplicação de técnicas"ad hoc"para comprimir os pesos e remova conexões desnecessárias.

As redes treinadas pela Cerebras serão então apoiadas, por exemplo, pelo chip Qualcomm AI 100 Ultra, especializado justamente em atividades de inferência.

Os recursos visuais apresentados nesta peça foram obtidos diretamente do site da Cerebras, conforme consta em sua plataforma oficial.

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

retirado do site oficial da Cerebras,