Conjunto de chips Blackwell B200 AI da NVIDIA para revolucionar a inteligência artificial!

2024-03-18 1404 words 7 minutes

Contents

No recente evento GTC 2024 organizado pela NVIDIA, eles revelaram suas mais recentes soluções de aceleração de IA – o B100, B200 e GB200. Essas soluções são projetadas para acelerar significativamente o processo de treinamento de redes neurais. Curiosamente, o “B” nestes produtos homônimos refere-se a Blackwell, que é uma homenagem ao renomado matemático e estatístico americano David Blackwell. Além disso, a arquitetura subjacente da GPU desempenha um papel crucial na condução desses vários aceleradores.

Jensen Huang, cofundador da NVIDIA e atual CEO, é retratado ao lado de Blackwell, um pesquisador líder na área de ciência da computação. A imagem mostra os tamanhos contrastantes dos dois indivíduos, com Huang parecendo significativamente maior que Blackwell.

A disponibilidade da GPU B100 é limitada a sistemas HGX de terceiros, que são projetados para serem integrados às configurações de servidor existentes devido à sua potência de design térmico (TDP) reduzida de 700 watts e desempenho correspondentemente reduzido. Durante o discurso de abertura na recente conferência GTC 2024, a NVIDIA colocou ênfase significativa no modelo B200.

NVIDIA B200 Blackwell: duas GPUs formam uma muito poderosa

A mais recente iteração da GPU Blackwell B200 consiste em duas unidades de processamento gráfico discretas, fabricadas usando o processo N4P aprimorado da Taiwan Semiconductor Manufacturing Company (TSMC), conhecido como 4NP. Essas duas GPUs estão conectadas por meio de uma interface Chip-to-Chip (C2C) com uma notável taxa de transferência de dados de 10 terabytes por segundo (TB/s), superando em muito a conectividade oferecida pela interconexão UltraFusion da Apple de apenas 2,5 TB/s.

Levando em consideração a perspectiva de fabricação, a NVIDIA incorporou a tecnologia de embalagem CoWoS-L da TSMC em seus produtos. Esta abordagem inovadora permite a interligação de até seis GPUs, conforme afirma a empresa taiwanesa. No entanto, apesar do fato de as unidades individuais serem tecnicamente autossuficientes, a NVIDIA não tem planos atuais de lançar uma versão independente da GPU Blackwell.

A transição de uma GPU de chip único para uma configuração de vários chips já foi observada na indústria antes, iniciada principalmente pela AMD por meio do lançamento dos aceleradores Instinct MI250X e MI250 em novembro de 2021.

A NVIDIA enfrentou vários desafios ao considerar mudar para o projeto de módulo multichip (MCM) da AMD para suas unidades de processamento gráfico (GPUs). Em primeiro lugar, precisavam de equilibrar o desejo de um melhor desempenho com as potenciais desvantagens de custos e consumo de energia mais elevados. Além disso, a fabricação de uma única GPU grande usando uma abordagem monolítica não era viável devido a limitações técnicas. No entanto, uma vantagem da abordagem MCM é que ela proporciona mais liberdade de projeto durante os estágios iniciais, incluindo a escolha dos processos de fabricação. Isso pode resultar em melhor gerenciamento térmico e redução no uso de energia.

Os dois dispositivos semicondutores que compõem a GPU Blackwell se estendem até a periferia da estrutura do circuito integrado e abrangem uma área de superfície aproximada de 1.600 milímetros quadrados. Esses componentes consistem em um coletivo de 208 bilhões de transistores, com cada chip individual abrigando 104 bilhões de transistores – superando a contagem de 80 bilhões de transistores da GPU GH100 Hopper em 24 bilhões de unidades.

O acelerador B100 apresenta uma configuração de memória notável, pois utiliza oito módulos de memória HBM3E de 24 GB de alta capacidade que fornecem uma impressionante capacidade agregada de 192 GB. Esta generosa quantidade de memória oferece desempenho incomparável, superando tanto o GH200 quanto o Instinct MI300X da AMD em termos de largura de banda de memória. Com uma largura de banda impressionante de 8 TB/s, o sistema de memória HBM3E do B100 se destaca como uma prova de seu design e engenharia de ponta.

A introdução de 192 GB de memória HBM3E no H105 demonstra uma melhoria substancial em comparação com os 80 GB de HBM3 de seu antecessor, bem como os 141 GB oferecidos pelo H200 e GH200, apesar de ser comparável aos 192 GB de HBM3 encontrados no acelerador Instinct MI300X da AMD.

Em relação às capacidades computacionais, a NVIDIA divulgou dados relativos especificamente aos Tensor Cores da arquitetura Blackwell, permitindo uma avaliação de sua eficiência em comparação com a arquitetura Hopper. Em média, a Blackwell demonstra uma melhoria de aproximadamente 2,5 vezes no desempenho, com melhorias de pico chegando a cinco vezes, ao empregar cálculos de precisão reduzida. No entanto, é importante observar que a NVIDIA ainda não forneceu detalhes sobre a capacidade de computação do FP64 e a quantidade de unidades de sombreamento no design da Blackwell. Consequentemente, a nossa compreensão do âmbito total da Blackwell permanece incompleta neste momento.

A NVIDIA afirma que sua GPU Blackwell pode atingir mais de 20 petaflops ao realizar cálculos de ponto flutuante a uma taxa de 4 (FP4), ou 10 petaflops ao calcular a uma taxa de 8 (FP8) através da utilização de núcleos tensores. Em contraste, o processador H100 atinge aproximadamente 4 petaflops ao operar no modo SXM5 com cálculos FP8, 3 petaflops ao funcionar como uma placa PCIe e aproximadamente 7,9 petaflops quando configurado para uso com duas unidades de processamento gráfico (GPUs) na configuração NVL. No entanto, como os Hopper Tensor Cores são incapazes de suportar as operações do FP4, um

A principal melhoria no desempenho pode ser atribuída ao Transformer Engine de próxima geração, que emprega um formato de precisão de 4 bits para processamento de dados, resultando em uma impressionante duplicação do rendimento em comparação com a tecnologia FP8 existente, mantendo níveis semelhantes de precisão.

Conforme afirmado anteriormente, a NVIDIA especificou uma faixa de potência de design térmico (TDP) de 700 a 1200 watts para sua GPU Blackwell. Entre estes, as versões refrigeradas a ar do B100 e B200 estão equipadas com valores de TDP de 700 e 1000 watts, respectivamente. Enquanto isso, a variante com refrigeração líquida do B200 possui um TDP de 1200 watts.

A Blackwell possui uma gama de recursos impressionantes, incluindo compatibilidade com o padrão PCI Express 6.0 de última geração. Isso garante integração perfeita e desempenho ideal ao utilizar transferência de dados em alta velocidade. Além disso, como seus antecessores, a Blackwell suporta múltiplas configurações de GPU por meio de uma conexão NVLink que pode fornecer velocidades surpreendentes de até 1,8 terabytes por segundo – superando a capacidade de 900 gigabytes por segundo do Hopper em mais que o dobro.

A NVIDIA lançou outro acelerador de alto desempenho conhecido como GB200, que combina uma CPU Grace e duas GPUs Blackwell em uma única placa. A CPU Grace compartilha semelhanças com aquelas encontradas nos modelos GH100/GH200, enquanto a capacidade de memória combinada consiste em 864 GB dos dois aceleradores Blackwell e 480 GB adicionais de memória LPDDR5X dedicada à CPU Grace.

A infraestrutura de comunicação que conecta a CPU Grace às GPUs Blackwell utiliza uma interface NVLink C2C bidirecional que oferece taxas de transferência de dados de até 900 GB/s. Além disso, para conectividade externa, cada acelerador GB200 possui duas interfaces NVLink bidirecionais capazes de transmitir dados a velocidades de até 1,8 terabytes por segundo em ambas as direções.

Durante o discurso de abertura, a NVIDIA apresentou sua mais recente inovação em tecnologia de supercomputação com o lançamento do GB200 NVL72, um sistema de rack refrigerado a líquido de última geração projetado para acomodar uma impressionante variedade de aceleradores 36 GB200, resultando em um total geral de 72 GPUs e 36 CPUs. Esta máquina notável foi projetada especificamente para lidar com eficiência com grandes modelos de linguagem (LLMs), ostentando contagens de parâmetros que chegam a 27 trilhões, superando a capacidade dos LLMs contemporâneos em ordens de magnitude. Antecipando o surgimento de LLMs ainda mais avançados no futuro, a NVIDIA tomou medidas proativas para garantir a prontidão para

A empresa orgulhosamente apregoa que o GB200 NVL72 alcança um impressionante aprimoramento de 30 vezes no desempenho em comparação com as GPUs NVIDIA H100 Tensor Core quando se trata de executar tarefas de inferência de modelo de linguagem grande (LLM), ao mesmo tempo em que reduz o custo e o consumo de energia em até 25%. vezes.

O rack GB200-NVL72 está configurado para estar disponível através de vários provedores de serviços em nuvem, incluindo Amazon Web Services (AWS), Google Cloud, Microsoft Azure e Oracle Cloud. Notavelmente, a AWS anunciou sua intenção de construir um supercomputador de inteligência artificial (IA) chamado Ceiba, que utilizará a infraestrutura GB200-NVL72, apresentando mais de 20.000 GPUs Blackwell e ostentando capacidades de processamento de IA superiores a 400 exaflops.

Artigo sendo atualizado…

*️⃣ Link da fonte: