Nvidia a annoncé de nouveaux détails sur son Grace CPU Superchip avant sa présentation Hot Chips 34 la semaine prochaine, révélant que les puces sont fabriquées sur le processus 4N. Nvidia a également partagé plus d’informations sur l’architecture et la structure de données, ainsi que plus de performances et d’efficacité. Nvidia n’a pas encore fait sa présentation officielle à Hot Chips – nous ajouterons les détails plus fins après la session – mais les informations partagées aujourd’hui nous donnent les grandes lignes alors que les puces et les serveurs Grace progressent sur le marché dans le premier moitié de 2023.
Pour rappel, le processeur Grace de Nvidia est la première puce Arm uniquement CPU de la société conçue pour le centre de données et se présente sous la forme de deux puces sur une carte mère, totalisant 144 cœurs, tandis que le Grace Hopper Superchip combine un GPU Hopper et le processeur Grace sur le même planche.
Parmi les révélations les plus importantes, Nvidia a finalement officiellement confirmé que les processeurs Grace utilisent le processus TSMC 4N. TSMC répertorie le processus « N4 » 4 nm sous sa famille de nœuds 5 nm, le décrivant comme une version améliorée du nœud 5 nm. Nvidia utilise une variante spécialisée de ce nœud, appelée « 4N », qui est optimisée spécifiquement pour ses GPU et CPU.
Ces types de nœuds spécialisés deviennent de plus en plus courants à mesure que la loi de Moore diminue et que le rétrécissement des transistors devient plus difficile et plus coûteux à chaque nouveau nœud. Pour activer des nœuds de processus personnalisés comme le 4N de Nvidia, les concepteurs de puces et les fonderies travaillent main dans la main en utilisant la co-optimisation de la technologie de conception (DTCO) pour composer des caractéristiques de puissance, de performance et de surface (PPA) personnalisées pour leurs produits spécifiques.
Nvidia a précédemment révélé qu’elle utilisait des cœurs Arm Neoverse prêts à l’emploi pour ses processeurs Grace, mais la société n’a toujours pas précisé quelle version spécifique elle utilise. Cependant, Nvidia a révélé que Grace utilise des cœurs Arm v9 et prend en charge SVE2, et la plate-forme Neoverse N2 est la première IP d’Arm à prendre en charge Arm v9 et des extensions comme SVE2. La plate-forme N2 Perseus se présente sous la forme d’une conception de 5 nm (rappelez-vous que N4 fait partie de la famille 5 nm de TSMC) et prend en charge PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 et CXL 2.0. La conception Perseus est optimisée pour les performances par puissance (watt) et les performances par zone. Arm dit que ses cœurs de nouvelle génération, Poseidon, n’arriveront pas sur le marché avant 2024, ce qui fait de ces cœurs un candidat moins probable compte tenu de la date de lancement de Grace au début de 2023.
Architecture du processeur Nvidia Grace Hopper
Le nouveau Nvidia Scalable Coherency Fabric (SCF) de Nvidia est une interconnexion maillée qui semble très similaire au réseau maillé cohérent CMN-700 standard utilisé avec les cœurs Arm Neoverse.
Le Nvidia SCF fournit 3,2 To/s de bande passante bi-sectionnelle entre les différentes unités de puce Grace, comme les cœurs de processeur, la mémoire et les E/S, sans parler de l’interface NVLink-C2C qui relie la puce à l’autre unité présente sur la carte mère, que ce soit un autre processeur Grace ou le GPU Hopper.
Le maillage prend en charge plus de 72 cœurs et chaque processeur dispose de 117 Mo de cache L3 total. Nvidia dit que le premier schéma fonctionnel de l’album ci-dessus est une « topologie possible à des fins d’illustration », et que son alignement n’est pas entièrement d’accord avec le deuxième schéma.
Ce diagramme montre la puce avec huit partitions de cache SCF (SCC) qui semblent être des tranches de cache L3 (nous apprendrons plus de détails dans la présentation) ainsi que huit unités CPU (celles-ci semblent être des grappes de cœurs). Le SCC et les cœurs sont connectés aux nœuds de commutation de cache (CSN) par groupes de deux, le CSN résidant alors sur la structure maillée SCF pour fournir une interface entre les cœurs du processeur et la mémoire au reste de la puce. SCF prend également en charge la cohérence sur jusqu’à quatre sockets avec Coherent NVLink.
Nvidia a également partagé ce diagramme, montrant que chaque processeur Grace prend en charge jusqu’à 68 voies PCIe et jusqu’à quatre connexions PCIe 5.0 x16. Chaque connexion x16 prend en charge jusqu’à 128 Go/s de débit bidirectionnel (les liaisons x16 peuvent être bifurquées en deux liaisons x8). Nous voyons également 16 contrôleurs de mémoire LPDDR5X à double canal (MC).
Cependant, ce schéma est différent du premier – il montre le cache L3 sous la forme de deux blocs contigus connectés à des clusters de processeurs quadricœurs, ce qui est beaucoup plus logique que le schéma précédent et totalise jusqu’à 72 cœurs dans la puce. Cependant, nous ne voyons pas les partitions SCF séparées ou les nœuds CSN du premier diagramme, ce qui prête un peu à confusion. Nous en discuterons lors de la présentation et mettrons à jour si nécessaire.
Nvidia nous dit que le Scalable Coherency Fabric (SCF) est sa conception exclusive, mais Arm permet à ses partenaires de personnaliser le maillage CMN-700 en ajustant le nombre de cœurs, les tailles de cache et en utilisant différents types de mémoire, tels que DDR5 et HBM, et sélection de diverses interfaces, telles que PCIe 5.0, CXL et CCIX. Cela signifie qu’il est possible que Nvidia utilise une implémentation CMN-700 hautement personnalisée pour le tissu sur matrice.
Mémoire GPU étendue Nvidia Grace Hopper
Les GPU aiment le débit de la mémoire, donc naturellement, Nvidia s’est tourné vers l’amélioration du débit de la mémoire non seulement dans la puce mais aussi entre le CPU et le GPU. Le processeur Grace dispose de 16 contrôleurs de mémoire LPDDR5X à double canal, fonctionnant sur 32 canaux prenant en charge jusqu’à 512 Go de mémoire et jusqu’à 546 Go/s de débit. Nvidia dit avoir choisi LPDDR5X plutôt que HBM2e en raison de plusieurs facteurs, tels que la capacité et le coût. Pendant ce temps, LPDDR5X fournit 53 % de bande passante en plus et 1/8 de la puissance par Go par rapport à la mémoire DDR5 standard, ce qui en fait le meilleur choix global.
Nvidia introduit également la mémoire GPU étendue (EGM), qui permet à tout GPU Hopper du réseau NVLink d’accéder à la mémoire LPDDR5X de n’importe quel processeur Grace du réseau, mais avec des performances NVLink natives.
L’objectif de Nvidia est de fournir un pool de mémoire unifié pouvant être partagé entre le CPU et le GPU, offrant ainsi des performances supérieures tout en simplifiant le modèle de programmation. La puce Grace Hopper CPU + GPU prend en charge la mémoire unifiée avec des tables de pages partagées, ce qui signifie que les puces peuvent partager un espace d’adressage et des tables de pages avec les applications CUDA et permettent d’utiliser des répartiteurs système pour allouer de la mémoire GPU. Il prend également en charge les atomes natifs entre le CPU et le GPU.
Nvidia NVLink-C2C
Les cœurs de processeur sont le moteur de calcul, mais les interconnexions sont le champ de bataille qui définira l’avenir de l’informatique. Le déplacement des données consomme plus d’énergie que le calcul réel des données. Par conséquent, déplacer les données plus rapidement et plus efficacement, voire éviter les transferts de données, est un objectif clé.
Le processeur Grace de Nvidia, qui se compose de deux processeurs sur une seule carte, et la super puce Grace Hopper, qui se compose d’un processeur Grace et d’un GPU Hopper sur la même carte, sont conçus pour maximiser le transfert de données entre les unités via une puce NVLink propriétaire. à puce (C2C) et pour assurer la cohérence de la mémoire afin de réduire ou d’éliminer les transferts de données.
Interconnexion | Picojoules par bit (pJ/b) |
NVLink-C2C | 1,3 pJ/b |
OPCe | 0,5 – 0,25 pJ/b |
Tissu infini | ~1,5 pJ/b |
TSMC CoWoS | 0,56 pJ/b |
Foveros | 0,2 pJ/b |
EMIB | 0,3 pJ/b |
Bouquet de fils (BoW) | 0,7 à 0,5 pJ/b |
Sur-die | 0,1 pJ/b |
Nvidia a partagé de nouveaux détails sur son interconnexion NVLink-C2C. Pour rappel, il s’agit d’une interconnexion die-to-die et chip-to-chip qui prend en charge la cohérence mémoire, délivrant jusqu’à 900 Go/s de débit (7x la bande passante d’une liaison PCIe 5.0 x16). Cette interface utilise le protocole NVLink, et Nvidia a conçu l’interface en utilisant ses technologies de conception SERDES et LINK en mettant l’accent sur l’efficacité énergétique et de surface. Cependant, NVLink-C2C prend également en charge les protocoles standard de l’industrie tels que CXL et l’interface AMBA Coherent Hub d’Arm (CHI – clé du maillage Neoverse CMN-700). Il prend également en charge plusieurs types de connexions allant des interconnexions basées sur PCB aux interposeurs de silicium et aux implémentations à l’échelle des tranches.
L’efficacité énergétique est une mesure clé pour toutes les structures de données, et aujourd’hui, Nvidia a partagé que le lien consomme 1,3 picojoules par bit (pJ/b) de données transférées. C’est 5 fois l’efficacité de l’interface PCIe 5.0, mais c’est plus du double de la puissance de l’interconnexion UCIe qui arrivera sur le marché à l’avenir (0,5 à 0,25 pJ/b). Les types d’emballage varient et le lien C2C fournit à Nvidia un solide mélange de performances et d’efficacité pour son cas d’utilisation spécifique, mais comme vous pouvez le voir dans le tableau ci-dessus, des options plus avancées offrent des niveaux d’efficacité énergétique plus élevés.
Benchmarks du processeur Nvidia Grace
Nvidia a partagé plus de références de performances, mais comme pour toutes les données de performances fournies par les fournisseurs, vous devez prendre ces chiffres avec un grain de sel. Ces repères sont également accompagnés de la mise en garde supplémentaire qu’ils sont effectués avant le silicium, ce qui signifie qu’il s’agit de projections émulées qui n’ont pas encore été testées avec du silicium réel et sont « sujets à changement ». En tant que tel, saupoudrez un peu de sel supplémentaire.
La nouvelle référence de Nvidia ici est le score de 370 avec un seul processeur Grace dans le benchmark SpecIntRate 2017. Cela place les puces directement dans la plage à laquelle nous nous attendions – Nvidia a déjà partagé une référence multi-CPU, revendiquant un score de 740 pour deux Processeurs Grace dans le benchmark SpecIntRate2017. Évidemment, cela suggère une amélioration de la mise à l’échelle linéaire avec deux puces.
Les puces EPYC Milan de la génération actuelle d’AMD, le leader actuel des performances dans le centre de données, ont publié des résultats SPEC allant de 382 à 424 chacun, ce qui signifie que les puces x86 les plus haut de gamme conserveront toujours la tête. Cependant, la solution de Nvidia aura de nombreux autres avantages, tels que l’efficacité énergétique et une conception plus conviviale pour le GPU.
Nvidia a partagé ses références de débit de mémoire, montrant que le processeur Grace peut fournir environ 500 Go/s de débit dans les tests de débit de mémoire du processeur. Nvidia affirme également que la puce peut également pousser jusqu’à 506 Go/s de débit combiné en lecture/écriture vers un GPU Hopper connecté, et cadencé la bande passante CPU vers GPU à 429 Go/s pendant les tests de débit de lecture, et 407 Go/s avec les écritures. .
Grace Hopper est prête pour le système d’armement
Nvidia a également annoncé que la puce Grace CPU respectera les exigences nécessaires pour obtenir la certification System Ready. Cette certification signifie qu’une puce Arm « fonctionnera simplement » avec les systèmes d’exploitation et les logiciels, facilitant ainsi le déploiement. Grace prendra également en charge les extensions de virtualisation, y compris la virtualisation imbriquée et la prise en charge de S-EL2. Nvidia répertorie également la prise en charge des éléments suivants :
- RAS v1.1 Contrôleur d’interruption générique (GIC) v4.1
- Partitionnement et surveillance de la mémoire (MPAM)
- Unité de gestion de la mémoire système (SMMU) v3.1
- Armez l’architecture du système de base du serveur (SBSA) pour permettre des interfaces matérielles et logicielles conformes aux normes. De plus, pour activer les flux de démarrage standard sur les systèmes basés sur Grace CPU, Grace CPU a été conçu pour prendre en charge les exigences de démarrage de base du serveur Arm (SBBR).
- Pour le partitionnement du cache et de la bande passante, ainsi que la surveillance de la bande passante, Grace CPU prend également en charge le partitionnement et la surveillance de la mémoire Arm (MPAM). Grace CPU comprend également des unités de surveillance des performances Arm, permettant la surveillance des performances des cœurs du processeur ainsi que d’autres sous-systèmes dans l’architecture du système sur puce (SoC). Cela permet d’utiliser des outils standard, tels que Linux perf, pour les enquêtes de performances.
Le processeur Grace et la super puce Grace Hopper de Nvidia sont sur la bonne voie pour une sortie début 2023, avec la variante Hopper adaptée à la formation à l’IA, à l’inférence et au HPC, tandis que les systèmes Grace à double processeur sont conçus pour les charges de travail HPC et de cloud computing.