Le Centre indien pour le développement de l’informatique avancée (C-DAC) a annoncé cette semaine[PDF] le premier processeur de calcul haute performance (HPC) auto-conçu du pays. Nommée Aum, la première puce de l’Inde est une conception de chiplet qui peut évoluer jusqu’à 96 cœurs et est basée sur les conceptions v8.4 « Zeus » Neoverse V1 d’Arm (les mêmes que celles qu’AWS utilise dans son Graviton3), et devrait arriver sur le marché comme dès 2024 sur le processus 5 nm de TSMC.
Aum a été développé dans le cadre de sa National Supercomputing Mission, un programme qui vise à réduire l’exposition de l’Inde à d’éventuelles restrictions à l’exportation. Pour cela, l’objectif est de déployer une architecture de processeur développée au niveau national. Peut-être de manière alarmante pour Intel et AMD, cependant, l’objectif est qu’Aum soit utilisable à la fois dans des scénarios informatiques hautes performances et dans des puces informatiques personnelles. Et là où Aum existe, le marché est plus petit.
Le raisonnement est simple : si l’Inde a la capacité de concevoir des puces (que cela signifie mélanger et assortir des pièces du portefeuille ouvert d’Arm ou guider des implémentations spécifiques pour la conception finale et manufacturable), les éventuelles restrictions technologiques à l’exportation pourraient un peu moins. Dans le même temps, la National Computing Mission vise également à améliorer la sécurité contre d’éventuelles portes dérobées ; un fournisseur de conception neutre tel que Arm s’inscrit naturellement dans ces préoccupations. Et même si le contrôle du processus de conception lui-même ne permet pas d’aller jusqu’au bout (pas lorsque des portes dérobées peuvent être appliquées dans l’usine par des adversaires volontaires et capables), c’est un bon début. L’utilisation prévue de logiciels open source pour soutenir un écosystème de logiciels spécialisés dessine également un avenir logiciel plus diversifié, de sorte que le matériel n’est pas le seul segment susceptible de se fragmenter, avec suffisamment de temps.
Les puces A48Z au cœur de la puce Aum à 96 cœurs comportent chacune 48 cœurs Arm Zeus (base 3 GHz, 3,5 GHz Turbo), pris en charge par 96 Mo de cache L2 à accès immédiat et une autre couche de cache de 96 Mo tamponnant les cœurs et le mémoire système supplémentaire. Dans l’ensemble, chaque package Aum prend en charge jusqu’à 16 canaux de mémoire DDR5 (à 5200 MHz, offrant 332,8 Go / s de bande passante) et 64 Go de mémoire HBM3 (stock de 6,4 GHz, réduit à 5,6 GHz lors de la sortie initiale pour un impressionnant 2,87 To/s). Un débit d’octets supplémentaire est ajouté par les 128 voies PCIe Gen 5, dont 64 activent des accélérateurs supplémentaires (tels que des accélérateurs GPU ou FPGA).
Les 64 restants sont probablement acheminés vers le tissu de communication interne de la puce, un réseau maillé cohérent de type NUMA, des liens entièrement cohérents en mémoire basés sur le protocole CCIX. Ce lien est utilisé par deux sockets Aum pour communiquer, et il faut une ou deux pages de conception d’Infinity Fabric d’AMD.
Selon la documentation, la conception d’Aum vise principalement à augmenter la quantité de bande passante mémoire disponible par flop de puissance de calcul (le rapport octet/flop), ce qui s’est avéré être un facteur très limitant dans la mise à l’échelle des performances pour le calcul HPC. Trop de voitures (opérations flottantes par seconde) sur trop peu de voies (débit mémoire) ne peuvent se terminer que dans un sens. Le résultat est qu’Aum et son architecture Arm ciblent les performances à 4,6 téraflops par socket et 3 To/sec de bande passante mémoire agrégée. Cela lui donnera un rapport octet/flop de 0,7, bien supérieur au 0,38 atteint par le supercalculateur Arm le plus rapide au monde, le japonais Fugaku, et battant de manière décisive le sommet américain basé sur IBM et Nvidia (<0,2 octet/flop). À un TDP prévu de 300 W, cependant, il semble que l'efficacité énergétique ait en fait diminué par rapport aux cœurs A64FX Arm de Fugaku.
Si tout se passe comme prévu, le processeur indien Aum Arm sera une entrée en force dans le domaine du supercalcul. Fondamentalement, ce sera un produit local – même s’il n’est pas dramatique, du moins dans ses premières itérations. Beaucoup de travail a clairement été consacré à l’avancement du sous-système de mémoire dans son ensemble, et en général, la mémoire est plus facile et plus disponible à la source que les puces TSMC 5 nm Aum seront faites. La personnalisation du cœur du processeur lui-même pourrait être la prochaine étape du C-DAC, ouvrant la voie à l’Inde et ajoutant de l’élan au processus de « nationalisation des puces » dans d’autres pays. La Chine aussi s’est intéressée à Arm, soit dit en passant ; mais c’est une toute autre histoire.
Cette poussée plus large pour un écosystème de puces plus varié fait partie de la raison pour laquelle Intel a décidé de réinvestir dans son activité de puces client Foundry, une décision prise par son rival AMD il y a des années (alors qu’il était au milieu de l’une de ses restructurations d’entreprise les plus difficiles à ce jour) . Et c’est encore une autre victoire pour l’écosystème Arm par rapport à son alternative x86 parfois troublée, qui en elle-même punit également certains plus durement que d’autres.
C’est aussi, peut-être, un signe des choses à venir en ce qui concerne les volumes d’expédition pour les fabricants de semi-conducteurs : de plus en plus d’entités lancent et reçoivent leurs conceptions des eaux de TSMC, mais il n’y a qu’un nombre limité de plaquettes pour tous les preneurs – et de miettes des combats de volume jonchent déjà le sol.
Le diaporama complet suit.