Moore Threads apresenta MTT S4000, com 48 GB de VRAM para aceleração de IA ultrarrápida!

2023-12-19 761 words 4 minutes

Contents

A fabricante de GPU chinesa Moore Threads anunciou o lançamento de sua primeira placa gráfica focada em aceleração de IA, falamos da MTT S4000. Fabricado no KUAE Intelligent Computing Center da Moore Thread, esta é a primeira GPU de IA em grande escala criada na China com base em"completamente com tecnologia de produção nacional “.

O estabelecimento da “Moore Threads PES-KUAE Computing Alliance” e da “Moore Threads PES-Large Model Ecology Alliance” com vários parceiros da ONU levou à consolidação de um ecossistema integrado para grandes modelos nacionais que abrange tudo, desde infraestrutura de computação até a criação e inferência desses modelos. Esta colaboração visa promover ainda mais o crescimento da grande indústria de modelos da China, melhorando continuamente a sua estrutura computacional subjacente e as capacidades de formação e raciocínio de tais modelos.

Isso é o que a GPU Moore Threads MTT S4000 oferece

O Moore Threads MTT S4000 utiliza uma configuração de 4.096 núcleos com base em sua própria arquitetura MUSA de 3ª geração. Isso se traduz em um desempenho computacional de 25 TFLOPs no FP32. Continuamos com 50 TFLOPS no TF32; 100TFLOPS FP16 e BF16; e terminamos com 200 TOPS em INT8. Este chip gráfico está conectado a uma memória GDDR6 de 48 GB capaz de atingir uma largura de banda de 768 GB/s. Ele usa a interface PCI-Express 4.0 x16 e possui 4 saídas de vídeo DisplayPort. Ele é capaz de codificar 96 streams de vídeo simultaneamente com resolução de 1080p.

Baseado em tecnologia MTLink 1.0 De desenvolvimento próprio, o MTT S4000 pode suportar interconexões de múltiplas placas. Também ajude a acelerar a computação distribuída de centenas de bilhões de modelos grandes. Ao mesmo tempo, o MTT S4000 oferece recursos avançados de renderização gráfica, recursos de codec de vídeo e recursos de exibição de vídeo 8K HDR de ultra-alta definição. Isso envolve servir para computação de IA, renderização gráfica, multimídia e outros cenários de aplicativos incorporados.

E o que é mais importante. Com a ferramenta de desenvolvimento interna MUSIFY, a placa MTT S4000 pode aproveitar ao máximo o ecossistema de software CUDA (NVIDIA) existente. Você pode fazer uma migração de código CUDA para a plataforma MUSA sem custo.

O KUAE Intelligent Computing Center da Moore Threads oferece uma solução abrangente combinando componentes de hardware e software, com o KUAE Computing Cluster servindo como sua infraestrutura principal. Este centro fornece aos usuários acesso à plataforma KUAE para gerenciamento de cluster, bem como ao KUAE ModelStudio para serviços de modelagem. Seu objetivo principal é agilizar o processo de construção, operação e gerenciamento de sistemas de computação GPU de grande escala por meio de integração perfeita.

A solução proposta visa enfrentar os desafios associados à ampliação dos recursos de computação GPU para aplicações de grande escala, fornecendo uma abordagem integrada que agiliza o processo desde a aquisição de hardware até a implantação e operações. Ao aproveitar tecnologias existentes, como conteinerização e virtualização, esta solução permite tempos de implantação mais rápidos, ao mesmo tempo que oferece suporte para diversas linguagens de programação e estruturas comumente usadas em cargas de trabalho de IA e ML. Além disso, oferece flexibilidade por meio de opções de alocação de recursos e técnicas eficientes de balanceamento de carga, o que permite às organizações otimizar a utilização de recursos e reduzir custos operacionais. No geral, esta solução apresenta um meio prático e eficaz de aproveitar o potencial da computação GPU para empresas que procuram adotar capacidades avançadas de processamento de dados.

Resto da informação

A GPU Moore Threads MTT S4000 suporta treinamento e ajuste de todos os tipos de modelos grandes. Entre eles temos LLaMA, GLM, Aquila, Baichuan, GPT, Bloom ou Yuyin. Com base no cluster Moore Threads KUAE Kilocalorie, treinando modelos grandes com parâmetros de 70B a 130B, a taxa de aceleração linear pode atingir 91%. Por outro lado, a taxa de utilização aritmética permanece basicamente a mesma.

Tomando como exemplo um volume de dados de treinamento de 200 bilhões, o modelo Aquila2 de 70 bilhões de parâmetros do Wisdom Source Research Institute pode concluir o treinamento em 33 dias. O modelo em escala de 130 bilhões de parâmetros pode concluir o treinamento em 56 dias. Além disso, o cluster Moore Threads KUAE Kilocalorie suporta operação estável longa e contínua, suporta formação de renovação de ponto de interrupção e ponto de verificação assíncrono é menos de 2 minutos.

Embora não saibamos quanto tempo uma GPU AMD ou NVIDIA exigiria, isso não importa. Basicamente, a China já está lançando as bases para seu próprio hardware Alto desempenho para aceleração de IA.

*️⃣ Link da fonte:

Aceleração de IA,