NVIDIA domina com o dobro da velocidade do último lançamento da AMD!
Embora a AMD tenha anunciado há uma semana que seu acelerador Instinct MI300X AI era até 60% mais rápido que o NVIDIA H100, agora É a NVIDIA quem diz que este não é o caso. No lançamento de sua nova GPU para IA e computação de alto desempenho, a AMD afirmou que seu Instinct MI300X era significativamente mais rápido que a GPU NVIDIA H100 em cargas de trabalho de inferência.
Agora, uma semana depois, NVIDIA se deu ao trabalho de ensinar-lhe a dura realidade sobre onde está a amd em termos de aceleração de IA. Basicamente, indicou que quando a carga de trabalho é devidamente otimizada, os sistemas baseados em uma GPU AMD Instinct MI300X não têm nada a ver com seus sistemas baseados no NVIDIA H100.
NVIDIA afirma que a AMD trapaceou ao elogiar o desempenho do Instinct MI300X em relação ao seu H100
Especificamente, a NVIDIA afirmou que nos testes de desempenho conduzidos pela AMD, não utilizou software otimizado para seus sistemas DGX H100. É por isso que a comparação de desempenho com um sistema com GPU Instinct MI300X é realmente enganosa. e o desempenho real não é representado.
Desta forma, a NVIDIA se deu ao trabalho de fazer bem o trabalho da AMD. Especificamente, realize a comparação de desempenho usando software otimizado. E por otimizado queremos dizer algo tão importante como usar os núcleos CUDA de suas GPUs. Estamos falando de um framework de computação paralela (CUDA), aliado a um conjunto versátil de ferramentas (que utilizam CUDA), aliado a algoritmos (otimizações) altamente refinados. A NVIDIA indica que se você não levar em conta nenhum desses pontos, é evidente que o ritmo será menor.
De acordo com a NVIDIA, seu TensorRT-LLM incorpora otimizações avançadas de kernel adaptadas à arquitetura Hopper, um fator crucial para o desempenho do seu H100 e outras GPUs semelhantes. Essa configuração permite que modelos de inferência, como o Llama 2 70B, executem operações aceleradas de FP8 em GPUs H100 sem comprometer a precisão da inferência.
Os resultados compartilhados não utilizaram software otimizado, e o H100, se comparado corretamente, é 2 vezes mais rápido.
NVIDIA faz seu próprio teste de desempenho
Para provar isso, a NVIDIA apresentou métricas de desempenho de um único servidor DGX H100 equipado com oito GPUs H100 executando o modelo Llama 2 70B. Um sistema DGX é capaz de concluir uma única tarefa de inferência em apenas 1,7 segundos quando configurado com um tamanho de lote. Isso significa que ele trata uma solicitação por vez. Isso é menor do que a comparação de máquina de 2,5 segundos com 8x GPU AMD MI300X. Esta configuração fornece a resposta mais rápida para processamento de modelo.
Para equilibrar o tempo de resposta e a eficiência geral, os serviços em nuvem normalmente empregam um tempo de resposta padrão para determinadas tarefas. Conforme mostrado no gráfico, são 2,0 segundos, 2,3 segundos e 2,5 segundos. Essa abordagem permite gerenciar múltiplas solicitações de inferência juntas em lotes maiores , melhorando assim o total de inferências do servidor por segundo. Este método de medição de desempenho, que inclui um tempo de resposta definido, também é um padrão comum em benchmarks do setor, como o MLPerf.
Mesmo pequenos comprometimentos no tempo de resposta podem aumentar significativamente o número de inferências que um servidor pode manipular simultaneamente. Com um tempo de resposta padrão de 2,5 segundos, um servidor DGX H100 pode realizar mais de cinco inferências Call 2 70B a cada segundo. Este é um aumento substancial em comparação com o processamento de menos de uma inferência por segundo em uma configuração em lote. A NVIDIA, é claro, não tinha os números do AMD Instinct MI300X ao medir o desempenho nesta configuração. Mas com os dados fornecidos pela AMD em outras configurações, eles falam em dobrar seu desempenho.
*️⃣ Link da fonte: