H100 e H200 da NVIDIA vs. Gaudi 2 da Intel – Quem reinará supremo?

2024-03-28 738 words 4 minutes

Contents

O desempenho de diferentes tecnologias de aceleração de IA tem sido um tópico de discussão, com a NVIDIA sendo considerada um player dominante na área. No entanto, há um esforço contínuo na indústria para realizar avaliações objetivas e comparáveis que não sejam influenciadas por dados internos da empresa. Estes testes visam fornecer uma avaliação imparcial das soluções concorrentes.

O benchmark MLPerf Inference, supervisionado pelo consórcio MLCommons, fornece um meio de abordar nossa investigação original. Ao utilizar este benchmark, pode-se discernir as disparidades de desempenho entre as ofertas de aceleração da NVIDIA e as da Intel, sendo estas últimas representadas através dos seus respectivos envios. Embora a AMD tenha manifestado intenções de participar no processo de avaliação colectiva, mais detalhes sobre a sua participação permanecem não divulgados, incluindo o cronograma preciso para o seu envolvimento.

Clique para ampliar

A NVIDIA mantém a liderança entre seus concorrentes, conforme demonstrado pelos recentes ganhos de desempenho alcançados por meio de avanços de hardware e otimizações meticulosas de software. O acelerador H100 apresenta melhorias substanciais em relação às iterações anteriores em relação ao conjunto de benchmark MLPerf Inference v4.0 quando comparado à versão 3.1. Este desempenho aprimorado pode ser atribuído à incorporação de dois novos benchmarks-geração de imagem de difusão estável e teste no modelo Llama 2 70B-dentro da estrutura MLPerf Inference v4.0.

Clique para ampliar

A última iteração de testes trouxe um desenvolvimento interessante na forma do acelerador H200, uma versão atualizada de seu antecessor, o H100. Notavelmente, este modelo aprimorado apresenta maior capacidade de memória e velocidade aprimorada, passando de 80 GB de memória de alta largura de banda 3 (HBM3) para substanciais 141 GB de HBM3E. Esta atualização tem um significado particular para muitos modelos de linguagem grande (LLMs) e modelos de transformadores generativos pré-treinados (GPTs) de última geração, pois oferece um aprimoramento considerável em relação à edição anterior do H100. Além disso, a memória adicionada e mais rápida parece ter resolvido certos problemas de gargalo, levando a melhorias visíveis no

A capacidade de memória aprimorada do Llama 2 70B permite que ele opere exclusivamente em um único acelerador H200, eliminando a necessidade de fragmentação em várias GPUs. Consequentemente, a comunicação com aceleradores externos torna-se desnecessária, resultando num melhor desempenho geral.

O H200, aproveitando sua arquitetura de memória HBM3E, fornece uma largura de banda de memória superior em comparação com o H100, eliminando assim gargalos em áreas onde a largura de banda é limitada, resultando em uma utilização mais eficiente dos Tensor Cores e melhor desempenho de inferência.

Clique para ampliar

Foi demonstrado que as soluções de resfriamento personalizadas da NVIDIA melhoram o desempenho do sistema em até 14%, atribuído ao aumento dos recursos de TDP em sistemas parceiros. Em comparação, um acelerador H200 com TDP de 700 watts oferece desempenho 28% maior do que seu equivalente H100, enquanto com 1000 watts essa vantagem aumenta para 45%. Além disso, a NVIDIA confirmou o desenvolvimento dos sistemas Blackwell e planeja divulgar resultados de testes relevantes através do MLCommons após a conclusão.

Clique para ampliar

Enquanto aguarda a chegada da AMD, a Intel aproveitou a oportunidade para se apresentar como uma alternativa viável à NVIDIA. Através de esforços contínuos de otimização, a Intel busca estabelecer uma base sólida para seu sucesso futuro com o próximo lançamento de Gaudi 3. A empresa está particularmente concentrada na relação entre custo e desempenho, e é percebida como estando posicionada favoravelmente ao comparar configurações que apresentam oito Aceleradores Gaudi 2 versus oito aceleradores NVIDIA H100.

Clique para ampliar

A Intel vem incorporando recursos de inteligência artificial em suas unidades centrais de processamento já há algum tempo e também está avançando essa tecnologia em seus aceleradores. A empresa apresenta uma melhoria substancial entre as CPUs Sapphire Rapids e os modelos mais recentes do Emerald Rapids (ambos Xeon Scalable de 4ª e 5ª geração). Essa melhoria pode ser atribuída ao software otimizado, ao aumento do número de núcleos, aos caches L3 maiores e às velocidades de clock mais altas. Na verdade, a Intel prevê um salto notável de até 42% para processadores compatíveis – uma conquista realmente considerável.

É importante notar que a Intel e vários participantes proeminentes da indústria iniciaram a Unified Acceleration Foundation (UXL) com o objetivo de estabelecer um ecossistema de software de código aberto abrangendo múltiplas arquiteturas e fabricantes de aceleradores, apresentando assim uma opção competitiva para a plataforma CUDA da NVIDIA ao incentivando os desenvolvedores a explorar opções alternativas.

*️⃣ Link da fonte: