Contents

NVIDIA domina com o dobro da velocidade do último lançamento da AMD!

Embora a AMD tenha anunciado há uma semana que seu acelerador Instinct MI300X AI era até 60% mais rápido que o NVIDIA H100, agora É a NVIDIA quem diz que este não é o caso. No lançamento de sua nova GPU para IA e computação de alto desempenho, a AMD afirmou que seu Instinct MI300X era significativamente mais rápido que a GPU NVIDIA H100 em cargas de trabalho de inferência.

Agora, uma semana depois, NVIDIA se deu ao trabalho de ensinar-lhe a dura realidade sobre onde está a amd em termos de aceleração de IA. Basicamente, indicou que quando a carga de trabalho é devidamente otimizada, os sistemas baseados em uma GPU AMD Instinct MI300X não têm nada a ver com seus sistemas baseados no NVIDIA H100.

NVIDIA afirma que a AMD trapaceou ao elogiar o desempenho do Instinct MI300X em relação ao seu H100

/images/8x-AMD-Instinct-MI300X-vs-8x-NVIDIA-H100.jpg

Especificamente, a NVIDIA afirmou que nos testes de desempenho conduzidos pela AMD, não utilizou software otimizado para seus sistemas DGX H100. É por isso que a comparação de desempenho com um sistema com GPU Instinct MI300X é realmente enganosa. e o desempenho real não é representado.

Desta forma, a NVIDIA se deu ao trabalho de fazer bem o trabalho da AMD. Especificamente, realize a comparação de desempenho usando software otimizado. E por otimizado queremos dizer algo tão importante como usar os núcleos CUDA de suas GPUs. Estamos falando de um framework de computação paralela (CUDA), aliado a um conjunto versátil de ferramentas (que utilizam CUDA), aliado a algoritmos (otimizações) altamente refinados. A NVIDIA indica que se você não levar em conta nenhum desses pontos, é evidente que o ritmo será menor.

De acordo com a NVIDIA, seu TensorRT-LLM incorpora otimizações avançadas de kernel adaptadas à arquitetura Hopper, um fator crucial para o desempenho do seu H100 e outras GPUs semelhantes. Essa configuração permite que modelos de inferência, como o Llama 2 70B, executem operações aceleradas de FP8 em GPUs H100 sem comprometer a precisão da inferência.

Os resultados compartilhados não utilizaram software otimizado, e o H100, se comparado corretamente, é 2 vezes mais rápido.

NVIDIA faz seu próprio teste de desempenho

/images/NVIDIA-H100-rendimiento-inferencia-Llama-2-70B.jpg

Para provar isso, a NVIDIA apresentou métricas de desempenho de um único servidor DGX H100 equipado com oito GPUs H100 executando o modelo Llama 2 70B. Um sistema DGX é capaz de concluir uma única tarefa de inferência em apenas 1,7 segundos quando configurado com um tamanho de lote. Isso significa que ele trata uma solicitação por vez. Isso é menor do que a comparação de máquina de 2,5 segundos com 8x GPU AMD MI300X. Esta configuração fornece a resposta mais rápida para processamento de modelo.

Para equilibrar o tempo de resposta e a eficiência geral, os serviços em nuvem normalmente empregam um tempo de resposta padrão para determinadas tarefas. Conforme mostrado no gráfico, são 2,0 segundos, 2,3 segundos e 2,5 segundos. Essa abordagem permite gerenciar múltiplas solicitações de inferência juntas em lotes maiores , melhorando assim o total de inferências do servidor por segundo. Este método de medição de desempenho, que inclui um tempo de resposta definido, também é um padrão comum em benchmarks do setor, como o MLPerf.

Mesmo pequenos comprometimentos no tempo de resposta podem aumentar significativamente o número de inferências que um servidor pode manipular simultaneamente. Com um tempo de resposta padrão de 2,5 segundos, um servidor DGX H100 pode realizar mais de cinco inferências Call 2 70B a cada segundo. Este é um aumento substancial em comparação com o processamento de menos de uma inferência por segundo em uma configuração em lote. A NVIDIA, é claro, não tinha os números do AMD Instinct MI300X ao medir o desempenho nesta configuração. Mas com os dados fornecidos pela AMD em outras configurações, eles falam em dobrar seu desempenho.

*️⃣ Link da fonte:

A NVIDIA se deu ao trabalho ,