L’Inde choisit Arm’s Neoverse pour la conception de puces nationales

Le Centre indien pour le développement de l’informatique avancée (C-DAC) a annoncé cette semaine[PDF] le premier processeur de calcul haute performance (HPC) auto-conçu du pays. Nommée Aum, la première puce de l’Inde est une conception de chiplet qui peut évoluer jusqu’à 96 cœurs et est basée sur les conceptions v8.4 « Zeus » Neoverse V1 d’Arm (les mêmes que celles qu’AWS utilise dans son Graviton3), et devrait arriver sur le marché comme dès 2024 sur le processus 5 nm de TSMC.

Aum a été développé dans le cadre de sa National Supercomputing Mission, un programme qui vise à réduire l’exposition de l’Inde à d’éventuelles restrictions à l’exportation. Pour cela, l’objectif est de déployer une architecture de processeur développée au niveau national. Peut-être de manière alarmante pour Intel et AMD, cependant, l’objectif est qu’Aum soit utilisable à la fois dans des scénarios informatiques hautes performances et dans des puces informatiques personnelles. Et là où Aum existe, le marché est plus petit.

Le raisonnement est simple : si l’Inde a la capacité de concevoir des puces (que cela signifie mélanger et assortir des pièces du portefeuille ouvert d’Arm ou guider des implémentations spécifiques pour la conception finale et manufacturable), les éventuelles restrictions technologiques à l’exportation pourraient un peu moins. Dans le même temps, la National Computing Mission vise également à améliorer la sécurité contre d’éventuelles portes dérobées ; un fournisseur de conception neutre tel que Arm s’inscrit naturellement dans ces préoccupations. Et même si le contrôle du processus de conception lui-même ne permet pas d’aller jusqu’au bout (pas lorsque des portes dérobées peuvent être appliquées dans l’usine par des adversaires volontaires et capables), c’est un bon début. L’utilisation prévue de logiciels open source pour soutenir un écosystème de logiciels spécialisés dessine également un avenir logiciel plus diversifié, de sorte que le matériel n’est pas le seul segment susceptible de se fragmenter, avec suffisamment de temps.

Le package Aum et la conception individuelle du chiplet A48Z. (Crédit image : C-DAC)

Les puces A48Z au cœur de la puce Aum à 96 cœurs comportent chacune 48 cœurs Arm Zeus (base 3 GHz, 3,5 GHz Turbo), pris en charge par 96 Mo de cache L2 à accès immédiat et une autre couche de cache de 96 Mo tamponnant les cœurs et le mémoire système supplémentaire. Dans l’ensemble, chaque package Aum prend en charge jusqu’à 16 canaux de mémoire DDR5 (à 5200 MHz, offrant 332,8 Go / s de bande passante) et 64 Go de mémoire HBM3 (stock de 6,4 GHz, réduit à 5,6 GHz lors de la sortie initiale pour un impressionnant 2,87 To/s). Un débit d’octets supplémentaire est ajouté par les 128 voies PCIe Gen 5, dont 64 activent des accélérateurs supplémentaires (tels que des accélérateurs GPU ou FPGA).

Matériel de présentation de la puce C-DAC AUM

Sous-système de mémoire d’interconnexion d’Aum. (Crédit image : C-DAC)

Les 64 restants sont probablement acheminés vers le tissu de communication interne de la puce, un réseau maillé cohérent de type NUMA, des liens entièrement cohérents en mémoire basés sur le protocole CCIX. Ce lien est utilisé par deux sockets Aum pour communiquer, et il faut une ou deux pages de conception d’Infinity Fabric d’AMD.

Matériel de présentation de la puce C-DAC AUM

Une comparaison des spécifications entre le processeur Aum HPC du C-DAC et le A64FX de Fujitsu, de Fugaku. (Crédit image : C-DAC)

Selon la documentation, la conception d’Aum vise principalement à augmenter la quantité de bande passante mémoire disponible par flop de puissance de calcul (le rapport octet/flop), ce qui s’est avéré être un facteur très limitant dans la mise à l’échelle des performances pour le calcul HPC. Trop de voitures (opérations flottantes par seconde) sur trop peu de voies (débit mémoire) ne peuvent se terminer que dans un sens. Le résultat est qu’Aum et son architecture Arm ciblent les performances à 4,6 téraflops par socket et 3 To/sec de bande passante mémoire agrégée. Cela lui donnera un rapport octet/flop de 0,7, bien supérieur au 0,38 atteint par le supercalculateur Arm le plus rapide au monde, le japonais Fugaku, et battant de manière décisive le sommet américain basé sur IBM et Nvidia (<0,2 octet/flop). À un TDP prévu de 300 W, cependant, il semble que l'efficacité énergétique ait en fait diminué par rapport aux cœurs A64FX Arm de Fugaku.

Matériel de présentation de la puce C-DAC AUM

Les métriques d’efficacité octets/flop pour plusieurs systèmes HPC. (Crédit image : C-DAC)

Si tout se passe comme prévu, le processeur indien Aum Arm sera une entrée en force dans le domaine du supercalcul. Fondamentalement, ce sera un produit local – même s’il n’est pas dramatique, du moins dans ses premières itérations. Beaucoup de travail a clairement été consacré à l’avancement du sous-système de mémoire dans son ensemble, et en général, la mémoire est plus facile et plus disponible à la source que les puces TSMC 5 nm Aum seront faites. La personnalisation du cœur du processeur lui-même pourrait être la prochaine étape du C-DAC, ouvrant la voie à l’Inde et ajoutant de l’élan au processus de « nationalisation des puces » dans d’autres pays. La Chine aussi s’est intéressée à Arm, soit dit en passant ; mais c’est une toute autre histoire.

Source-138