Libere seu potencial de IA com o Instinct MI300X da AMD – superando o NVIDIA H100 em até 60%

2023-12-06 545 words 3 minutes

Contents

Hoje a AMD realizou um evento focado em Inteligência Artificial, e foi lá onde apresentou seu Instinct MI300X. Obviamente, estamos buscando uma GPU focada para acelerar a IA. Isso combina a melhor tecnologia AMD (arquitetura CNDA 3 e design de chip), juntamente com o melhor da TSMC. Ou seja, um processo de fabricação de última geração aliado à sua tecnologia de embalagem.

Este gráfico também se orgulha de ser o mais avançado de sua classe no nível de memória. é capaz de oferecer memória HBM3 de 192 GB com largura de banda de até 5,3 TB/s e largura de banda Infinity Factory de 896 GB/s. Isso representa um grande avanço em relação aos 96 GB de memória HBM3 incluídos no NVIDIA H100 com o qual é comparado. Também é ainda mais memória do que o que o NVIDIA H200 oferecerá (141 GB HBM3e), e até mesmo a solução da Intel, um Gaudi 3 com 144 GB HBM3.

Isso é o que sabemos sobre o AMD Instinct MI300X

O acelerador de IA AMD Instinct MI300X faz uso de nada menos que 8 dados de computação. Cada um deles esconde 40 unidades de computação sob a arquitetura CDNA 3. Isso se traduz em ter 2.560 núcleos CDNA 3 em cada matriz , dando como resultado final um total de 20.480 núcleos. Esses núcleos são interconectados usando a solução Infinity Fabric Interconnect 4ª geração. Além disso, temos nada menos que 28 dias adicionais, dos quais 8 deles são memória HBM3. Os 16 restantes nada mais são do que “chips falsos”.

Esses 8 chips de memória somam modestos 192 GB de memória HBM3. Isso representa 50% mais capacidade de memória em comparação com seu antecessor, o Instinct MI250X, que possui 128 GB de memória. Desta forma, cada pilha de memória HBM3 oferece 24 GB de capacidade. Essa memória é acompanhada por 256 MB de memória Infinity Cache.

Não há dados concretos, mas a AMD indica que seu Instinct MI300X oferece 30% mais desempenho FP8 e FP16 em comparação com o NVIDIA H100, oferecendo 140% mais capacidade de memória e 60% mais largura de banda. Em aplicações reais, a AMD indica que seu Instinct MI300X é 20% mais rápido no modelo de linguagem Colossal Llama 2 e FlashAttention 2 em comparação com o NVIDIA H100. Em um servidor que hospeda 8 GPUs, a melhoria chega a até 40% no Flame 2 e até 60% no Bloom.

Claro, é mais poderoso, mas também consome mais energia

A AMD tem um pequeno problema com este Instinct MI300X, que é o consumo de energia. Este gráfico tem um consumo nominal de 750W. Este é um salto notável em relação ao seu antecessor. Falamos em consumir 50% mais energia em comparação com os 500W do Instinct MI250X. E claro, todas as comparações são com a NVIDIA H100, mas uma NVIDIA H200 ainda mais potente consumirá 50W menos energia quando chegar ao mercado em 2024. A NVIDIA H100 tem um consumo de 350W.

Devido ao alto consumo, um servidor com 8x AMD Instinct MI300X e duas CPUs AMD EPYC 9004 pode ser equipado com até 8x fontes de alimentação de 3.000 W de energia para lidar com cargas de trabalho de até 18.000 W de energia.

*️⃣ Link da fonte:

focado em Inteligência Artificial ,