Contents

1,6 bilhão de transistores e 1.600 núcleos em um wafer!

A China joga a outro nível, vai atrás de tudo e apesar das limitações tecnológicas permite-se sonhar grande. Por isso, já está em fase de desenvolvimento seu último marco, que será criar o maior processador com mais núcleos do mundo em um único wafer, tornando-o o próprio chip. O objetivo da China é incluir em seu chip nada menos que 1.600 núcleos e um total de 1 bilhão de transistores, recebendo o nome de Zhejiang ou Big Chip, no que é conhecido no setor como “Waferscale”.

A China está preparada para introduzir uma abordagem inovadora, que alcançou um sucesso notável nos tempos contemporâneos e que apresenta uma notável semelhança com o design inovador dos Sistemas Cerebras. Embora os seus princípios fundamentais permaneçam inalterados, esta iteração irá alavancar recursos mais rudimentares para se concretizar até ao ano 2024. Consequentemente, a China merece aclamação pelo seu esforço ambicioso, uma vez que o empreendimento não é simples nem simplista.

Um design que tem limite: 858 mm2, como será o chip wafer da China com 1.600 núcleos?

/images/China-CAS.jpg

Pois bem, será complexo, muito complexo, com algumas lacunas a resolver e, sobretudo, delimitado por aqueles 858 mm2. Por que uma figura tão redonda? Bom, nunca é melhor dizer, porque é a área total de um wafer de silício de 300mm, ou seja, 12 polegadas.

O desafio e o programa foram assumidos pelo Instituto de Tecnologia da Informação da Academia Chinesa de Ciências , ou mais conhecido como CAS , que publicou um artigo explicando grande parte do processo na revista **Fundamental Research ** , deixando os principais detalhes.

A primeira coisa que devemos saber é que o wafer será gravado com o processo litográfico de 22 nm, para que possamos entender a complexidade do assunto quando o Ocidente está atualmente em 3 nm. A gravação será feita com os scanners ASML que a SMIC possui em seus FABs e sabemos que será complexa porque o chip wafer é projetado com base em chips, 16 para ser mais específico.

Um design inicial básico, escalabilidade gigantesca

/images/China-Chip-oblea-1.600-nucleos-300-mm.jpg

Como tudo, você precisa começar de algum lugar e, portanto, o primeiro teste será feito com esses 16 chips. Deve-se esclarecer que cada chiplet abriga 16 núcleos RISC-V, portanto o primeiro protótipo terá “apenas” 256 núcleos. Isso não é impressionante dadas as características que o ISA permite, então, como dissemos, é o prólogo do projeto em escala.

O CAS afirma que o projeto tem um limite de capacidade atual de 100 chips , o que significa que em 22 nm em um wafer de 300 mm eles podem acomodar até 1.600 núcleos no total, o que sairia de acordo com os cálculos que fizeram mais de 1 bilhão de transistores em uma área de 858 mm2.

Lamentavelmente, as informações disponíveis não fornecem detalhes específicos sobre questões críticas relativas à integração desses chips, devido a ambiguidades que envolvem fatores como a configuração precisa dos referidos chips e a hierarquia de memória que regerá sua operação. Embora alguns parâmetros fundamentais tenham sido divulgados, incluindo a utilização de links SMP para interconectividade entre os chips e a capacidade de compartilhamento mútuo de recursos de memória entre unidades individuais, numerosos aspectos intrincados permanecem sem solução.

A interconexão do seu interposer será 2.5D obviamente do tipo D2D , como afirmam os pesquisadores:

A interface utiliza uma nova metodologia de compartilhamento de canais que emprega uma estrutura multiplexada no tempo para diminuir a quantidade de sinais necessários entre os chips. Conseqüentemente, essa estratégia diminui a sobrecarga associada à região de colisão de E/S, bem como à alocação de recursos de fio. Por meio de um intermediário, a complexidade global do desenho do substrato pode ser substancialmente minimizada. Eventualmente, os chips residem no topo da camada de metal superior, onde são construídas almofadas de E/S microscópicas.

Latência ultrabaixa entre núcleos e latência muito baixa entre chips, tudo com um cache vertical futuro

/images/China-Chip-oblea-1.600-nucleos-300-mm-interposer.jpg

Parece que os engenheiros chineses recorreram à experiência de empresas como a AMD e a Intel, com o objetivo de elevar os chips e reduzir a latência a níveis sem precedentes dentro dos limites dos seus recursos e capacidades disponíveis. Segundo relatos, esses pesquisadores expressam considerável entusiasmo em relação às conexões potenciais que podem ser alcançadas em um único wafer contendo 1.600 núcleos.

“A arquitetura do chiplet é projetada com muitos núcleos e muitos chips com interconexão hierárquica. Dentro do chiplet, os núcleos se comunicam usando interconexão de latência ultrabaixa, enquanto os chipsets se interconectam com baixa latência, beneficiando-se de tecnologia de empacotamento avançada, de modo que a latência no chip (let) e o efeito NUMA em um sistema altamente escalável é pode ser minimizado.

A hierarquia de memória abrange memória central, memória cache on-chip e memória cache off-chip, cada uma exibindo diferenças em termos de largura de banda de memória, latência, consumo de energia e custo. Dentro do contexto da arquitetura hierárquica de chips, múltiplos núcleos são interconectados por meio de um cross-switch e compartilham um cache, resultando em uma estrutura de pod. Este pod é ainda interligado por meio de uma intrincada rede intrachiplet.

Uma coleção de pods constitui um chiplet, que é interligado por meio de uma rede que abrange várias unidades. Esta configuração é posteriormente anexada à memória fora do chip, exigindo um planejamento meticuloso para um desempenho ideal. Ao alocar efetivamente a largura de banda da memória para distribuir a carga computacional entre vários níveis de hierarquia, a eficiência geral da arquitetura do chiplet pode ser substancialmente melhorada.

Projetar os recursos da rede de comunicação de maneira eficaz permite a colaboração eficiente dos chips na execução de uma tarefa de memória compartilhada.

Memória HBM ou DDR5? Que tipo de memória a China usará para este chip de 1.600 núcleos?

/images/China-Chip-oblea-1.600-nucleos-300-mm-diagrama-interconexion-chiplets-nucleos-y-memoria.jpg

Na verdade, a explicação fornecida parece carecer de profundidade e não aborda questões mais profundas, como o tipo específico de memória necessária para um desempenho ideal. Esta deficiência dificulta uma compreensão abrangente da estrutura e capacidades subjacentes da solução.

A arquitetura do RISC-V parece se beneficiar significativamente ao incorporar quantidades substanciais de SRAM em cada chiplet. Consequentemente, é plausível que a nossa estratégia de design se baseie nesta premissa. No entanto, opções alternativas, como o emprego de memória de alta largura de banda (HBM) de gerações anteriores ou a implementação de interconexões físicas especializadas (PHYs) equipadas com recursos multicanais para módulos DDR5 de maior desempenho, continuam sendo alternativas viáveis ​​que vale a pena considerar.

No diagrama que eles forneceram, você pode ver a interconexão básica de 9 chips e são assumidos 6 canais de memória , o que não é realmente rebuscado. Portanto, devemos aguardar a decolagem deste chip chinês em wafer com 1.600 núcleos, após o que poderemos saber muito mais informações sobre ele e, ao longo do caminho, talvez algumas métricas de desempenho ou novidades.

*️⃣ Link da fonte:

recebendo o nome de Zhejiang ou Big Chip , revista * *Pesquisa fundamental**,