Détails Nvidia Conception de la superpuce CPU Grace Hopper: 144 cœurs sur le processus 4N TSMC

Nvidia a annoncé de nouveaux détails sur son Grace CPU Superchip avant sa présentation Hot Chips 34 la semaine prochaine, révélant que les puces sont fabriquées sur le processus 4N. Nvidia a également partagé plus d’informations sur l’architecture et la structure de données, ainsi que plus de performances et d’efficacité. Nvidia n’a pas encore fait sa présentation officielle à Hot Chips – nous ajouterons les détails plus fins après la session – mais les informations partagées aujourd’hui nous donnent les grandes lignes alors que les puces et les serveurs Grace progressent sur le marché dans le premier moitié de 2023.

Pour rappel, le processeur Grace de Nvidia est la première puce Arm uniquement CPU de la société conçue pour le centre de données et se présente sous la forme de deux puces sur une carte mère, totalisant 144 cœurs, tandis que le Grace Hopper Superchip combine un GPU Hopper et le processeur Grace sur le même planche.

Parmi les révélations les plus importantes, Nvidia a finalement officiellement confirmé que les processeurs Grace utilisent le processus TSMC 4N. TSMC répertorie le processus « N4 » 4 nm sous sa famille de nœuds 5 nm, le décrivant comme une version améliorée du nœud 5 nm. Nvidia utilise une variante spécialisée de ce nœud, appelée « 4N », qui est optimisée spécifiquement pour ses GPU et CPU.

(Crédit image : Nvidia)

Ces types de nœuds spécialisés deviennent de plus en plus courants à mesure que la loi de Moore diminue et que le rétrécissement des transistors devient plus difficile et plus coûteux à chaque nouveau nœud. Pour activer des nœuds de processus personnalisés comme le 4N de Nvidia, les concepteurs de puces et les fonderies travaillent main dans la main en utilisant la co-optimisation de la technologie de conception (DTCO) pour composer des caractéristiques de puissance, de performance et de surface (PPA) personnalisées pour leurs produits spécifiques.

Nvidia a précédemment révélé qu’elle utilisait des cœurs Arm Neoverse prêts à l’emploi pour ses processeurs Grace, mais la société n’a toujours pas précisé quelle version spécifique elle utilise. Cependant, Nvidia a révélé que Grace utilise des cœurs Arm v9 et prend en charge SVE2, et la plate-forme Neoverse N2 est la première IP d’Arm à prendre en charge Arm v9 et des extensions comme SVE2. La plate-forme N2 Perseus se présente sous la forme d’une conception de 5 nm (rappelez-vous que N4 fait partie de la famille 5 nm de TSMC) et prend en charge PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 et CXL 2.0. La conception Perseus est optimisée pour les performances par puissance (watt) et les performances par zone. Arm dit que ses cœurs de nouvelle génération, Poseidon, n’arriveront pas sur le marché avant 2024, ce qui fait de ces cœurs un candidat moins probable compte tenu de la date de lancement de Grace au début de 2023.

Architecture du processeur Nvidia Grace Hopper

Le nouveau Nvidia Scalable Coherency Fabric (SCF) de Nvidia est une interconnexion maillée qui semble très similaire au réseau maillé cohérent CMN-700 standard utilisé avec les cœurs Arm Neoverse.

Le Nvidia SCF fournit 3,2 To/s de bande passante bi-sectionnelle entre les différentes unités de puce Grace, comme les cœurs de processeur, la mémoire et les E/S, sans parler de l’interface NVLink-C2C qui relie la puce à l’autre unité présente sur la carte mère, que ce soit un autre processeur Grace ou le GPU Hopper.

Grâce CPU

(Crédit image : Nvidia)

Le maillage prend en charge plus de 72 cœurs et chaque processeur dispose de 117 Mo de cache L3 total. Nvidia dit que le premier schéma fonctionnel de l’album ci-dessus est une « topologie possible à des fins d’illustration », et que son alignement n’est pas entièrement d’accord avec le deuxième schéma.

Ce diagramme montre la puce avec huit partitions de cache SCF (SCC) qui semblent être des tranches de cache L3 (nous apprendrons plus de détails dans la présentation) ainsi que huit unités CPU (celles-ci semblent être des grappes de cœurs). Le SCC et les cœurs sont connectés aux nœuds de commutation de cache (CSN) par groupes de deux, le CSN résidant alors sur la structure maillée SCF pour fournir une interface entre les cœurs du processeur et la mémoire au reste de la puce. SCF prend également en charge la cohérence sur jusqu’à quatre sockets avec Coherent NVLink.

Grâce CPU

(Crédit image : Nvidia)

Nvidia a également partagé ce diagramme, montrant que chaque processeur Grace prend en charge jusqu’à 68 voies PCIe et jusqu’à quatre connexions PCIe 5.0 x16. Chaque connexion x16 prend en charge jusqu’à 128 Go/s de débit bidirectionnel (les liaisons x16 peuvent être bifurquées en deux liaisons x8). Nous voyons également 16 contrôleurs de mémoire LPDDR5X à double canal (MC).

Cependant, ce schéma est différent du premier – il montre le cache L3 sous la forme de deux blocs contigus connectés à des clusters de processeurs quadricœurs, ce qui est beaucoup plus logique que le schéma précédent et totalise jusqu’à 72 cœurs dans la puce. Cependant, nous ne voyons pas les partitions SCF séparées ou les nœuds CSN du premier diagramme, ce qui prête un peu à confusion. Nous en discuterons lors de la présentation et mettrons à jour si nécessaire.

Nvidia nous dit que le Scalable Coherency Fabric (SCF) est sa conception exclusive, mais Arm permet à ses partenaires de personnaliser le maillage CMN-700 en ajustant le nombre de cœurs, les tailles de cache et en utilisant différents types de mémoire, tels que DDR5 et HBM, et sélection de diverses interfaces, telles que PCIe 5.0, CXL et CCIX. Cela signifie qu’il est possible que Nvidia utilise une implémentation CMN-700 hautement personnalisée pour le tissu sur matrice.

Mémoire GPU étendue Nvidia Grace Hopper

Source-138