Contents

Potência RISC-V de 1.600 núcleos em um wafer!

Hoje sabemos que pesquisadores do Instituto de Tecnologia da Informação da Academia Chinesa de Ciências (CAS) estão desenvolvendo uma CPU de 1.600 núcleos. Para criar uma CPU tão poderosa, ela fará o que a Cerebras já fez no passado, que é criar uma CPU do tamanho total de um wafer.

Embora possamos pensar que a China está longe de atingir tal marco, este não é realmente o caso. Além do mais, de acordo com um relatório da revista Fundamental Research, resumido pela nextplatform, os pesquisadores já desenvolveram um processador multicore de 256 núcleos chamado Zhejiang Big Chip. Dessa forma, os pesquisadores agora estão trabalhando para aumentar o número de núcleos para oferecer aquela solução definitiva que se traduz em ter um wafer na forma de uma CPU com 1.600 núcleos.

A China quer que sua CPU RISC-V de 1.600 núcleos seja do tamanho de um wafer graças ao multichiplet

/images/diagrama-de-CPU-Zhejiang-Big-Chip-de-256-nucleos.jpg Diagrama da CPU de Zhejiang Big Chip 256 núcleos

A China tem problemas com o aumento da densidade dos transistores na ausência do maquinário ASML mais avançado. Desta forma, procurar arquiteturas multichiplet como alternativa é crucial para continuar aumentando o desempenho. Este Zhejiang Big Chip com 256 núcleos consegue atingir essa densidade graças a 16 chips com 16 núcleos RISC-V cada. Todos eles estão interligados através de uma rede no chip.

Usando esse design, os pesquisadores podem criar uma configuração de até 100 chips, resultando assim nos 1.600 núcleos que desejam alcançar. Embora o multichiplet seja comum hoje em dia, usar o wafer inteiro para um sistema estaria no mesmo nível da abordagem inovadora da Cerebras. Os pesquisadores citam a supercomputação exascale, baseada em um processo de fabricação de 22 nm, como uma aplicação ideal para arquiteturas multichiplet massivamente paralelas.

Há uma diferença notável aqui em relação ao uso de wafers de 7nm pela Cerebras. Isso permite que a empresa crie uma CPU com 850.000 núcleos. Tudo isso graças ao uso de 260 bilhões de transistores. Além disso, esses núcleos são acompanhados por 40 GB de memória SRAM.

Os designs de chips ajudam a neutralizar o uso de litografia menos moderna

/images/Chip-IA-Cerebras.jpg Brain Chip focado em IA

Obviamente, criar uma CPU com até 1.600 núcleos traz outro grande problema pela frente: o software. Estamos falando de uma grande otimização futura para equilibrar as cargas de trabalho em toda a hierarquia do sistema. A integração do processamento quase na memória e do empilhamento 3D pode otimizar ainda mais a eficiência. Os pesquisadores exploram os limites da litografia e da embalagem. Além de propor sistemas hierárquicos de chips como um caminho flexível para a escala futura da computação. Outros problemas a serem considerados estarão ligados ao desempenho e ao resfriamento.

Uma base de 256 núcleos demonstra o potencial dos projetos modulares como alternativa à integração monolítica. O interesse da China reflete as múltiplas iniciativas de gigantes americanos como AMD e Intel em CPUs para data centers. Mas as ambições nacionais em matéria de semicondutores acrescentam urgência à prova de que As soluções de design nacionais podem rivalizar com a inovação estrangeira. Embora os detalhes de desempenho não sejam claros, avanços rápidos são promissores no domínio da integração modular de chips.

Prevemos que uma arquitetura de chiplet hierárquica servirá como uma abordagem eficiente e versátil para a computação em exaescala atual e futura, de acordo com os sentimentos expressos pelos cientistas envolvidos no projeto CAS.

Uma arquitetura de chiplet hierárquica emprega múltiplos núcleos e numerosos chips, organizados em uma configuração em camadas para uma comunicação eficiente. As interfaces de baixa latência facilitam a troca entre núcleos dentro de cada chiplet, enquanto as interconexões de latência reduzida permitem conectividade perfeita entre os chips por meio de técnicas de empacotamento de ponta. Isso resulta em latência mínima no chip e mitigação do efeito NUMA em um design altamente escalável. Incorporando vários tipos de memória, incluindo memória central, memória no chip e memória fora do chip, a hierarquia de memória atende a diversos requisitos em relação à largura de banda, latência, consumo de energia e custo.

No layout arquitetônico do sistema hierárquico de chips, um cluster de unidades de processamento é conectado por meio de um mecanismo de comutação semelhante a uma malha e participa de uma infraestrutura de cache compartilhada. Esse arranjo cria uma configuração de cápsula que está entrelaçada com uma rede intratarefa. Uma coleção dessas cápsulas se combina para constituir um chiplet, que é posteriormente conectado a outra rede de chips antes de ser conectado a chips de memória externos. O processo de design deve ser meticulosamente planejado para maximizar os benefícios oferecidos por esta estrutura multicamadas.

Uma estratégia de utilização bem projetada e otimizada para largura de banda de memória, destinada a equilibrar as cargas de trabalho em vários níveis de hierarquia de computação em um sistema chiplet, tem o potencial de melhorar substancialmente o desempenho geral. Ao alocar estrategicamente os recursos da rede de comunicação, é possível facilitar a execução cooperativa de tarefas de memória compartilhada entre os chips, garantindo ao mesmo tempo uma colaboração eficiente.

*️⃣ Link da fonte:

resumido por nextplatform,