Le PDG de Nvidia, Jensen Huang, a annoncé ici au Computex 2023 à Taipei, Taïwan, que les superpuces Grace Hopper de la société sont maintenant en pleine production, et la plate-forme Grace a maintenant remporté six supercalculateurs. Ces puces sont un élément fondamental de l’une des autres grandes annonces Computex 2023 de Huang : la nouvelle plate-forme de supercalcul IA DGX GH200 de la société, conçue pour des charges de travail d’IA génératives massives, est désormais disponible avec 256 superpuces Grace Hopper jumelées pour former une centrale de supercalcul de 144 To. de mémoire partagée pour les tâches de formation IA génératives les plus exigeantes. Nvidia a déjà des clients comme Google, Meta et Microsoft prêts à recevoir les systèmes de pointe.
Nvidia a également annoncé ses nouvelles architectures de référence MGX qui aideront les OEM à construire plus rapidement de nouveaux supercalculateurs IA avec plus de 100 systèmes disponibles. Enfin, la société a également annoncé sa nouvelle plate-forme de réseau Ethernet Spectrum-X, conçue et optimisée spécifiquement pour les serveurs d’IA et les clusters de supercalcul. Plongeons dedans.
Les superpuces Nvidia Grace Hopper sont désormais en production
Nous avons couvert en profondeur les Superchips Grace et Grace Hopper dans le passé. Ces puces sont au cœur des nouveaux systèmes de Nidia annoncés aujourd’hui. La puce Grace est le propre processeur Arm CPU de Nvidia, et la Grace Hopper Superchip combine le processeur Grace à 72 cœurs, un GPU Hopper, 96 Go de HBM3 et 512 Go de LPDDR5X sur le même boîtier, le tout pesant 200 milliards de transistors. . Cette combinaison fournit une bande passante de données étonnante entre le CPU et le GPU, avec jusqu’à 1 To/s de débit entre le CPU et le GPU, offrant un énorme avantage pour certaines charges de travail liées à la mémoire.
Avec les Grace Hopper Superchips maintenant en pleine production, nous pouvons nous attendre à ce que les systèmes proviennent d’une multitude de partenaires systèmes de Nidia, comme Asus, Gigabyte, ASRock Rack et Pegatron. Plus important encore, Nvidia déploie ses propres systèmes basés sur les nouvelles puces et publie des architectures de conception de référence pour les OxM et les hyperscalers, que nous aborderons ci-dessous.
Supercalculateur Nvidia DGX GH200
Les systèmes DGX de Nvidia sont son système de référence et son architecture de référence pour les charges de travail AI et HPC les plus exigeantes, mais les systèmes DGX A100 actuels sont limités à huit GPU A100 fonctionnant en tandem comme une seule unité cohérente. Compte tenu de l’explosion de l’IA générative, les clients de Nvidia sont avides de systèmes beaucoup plus grands avec beaucoup plus de performances, et le DGX H200 est conçu pour offrir le meilleur débit pour une évolutivité massive dans les charges de travail les plus importantes, comme la formation à l’IA générative, les grands modèles de langage, le système de recommandation. systèmes et l’analyse de données, en contournant les limites des options de connectivité de cluster standard, comme InfiniBand et Ethernet, avec le silicium NVLink Switch personnalisé de Nvidia.
Les détails sont encore légers sur les aspects les plus fins du nouveau supercalculateur DGX GH200 AI, mais nous savons que Nvidia utilise un nouveau système de commutateur NVLink avec 36 commutateurs NVLink pour relier 256 puces GH200 Grace Hopper et 144 To de mémoire partagée dans une unité cohérente. qui ressemble et agit comme un GPU massif. Le nouveau système de commutation NVLink est basé sur son silicium NVLink Switch qui en est maintenant à sa troisième génération.
Le DGX GH200 est livré avec 256 CPU + GPU Grace Hopper au total, dépassant facilement le plus grand arrangement DGX connecté NVLink de Nvidia avec huit GPU, et les 144 To de mémoire partagée sont 500 fois plus que les systèmes DGX A100 qui offrent un « simple » 320 Go de mémoire partagée. mémoire entre huit GPU A100. De plus, l’extension du système DGX A100 à des clusters avec plus de huit GPU nécessite l’utilisation d’InfiniBand comme interconnexion entre les systèmes, ce qui entraîne des pénalités de performances. En revanche, le DGX GH200 marque la première fois que Nvidia construit un cluster de superordinateurs complet autour de la topologie NVLink Switch, qui, selon Nvidia, fournit jusqu’à 10 fois la bande passante GPU à GPU et 7 fois la bande passante CPU à GPU de sa génération précédente. système. Il est également conçu pour fournir 5 fois l’efficacité énergétique de l’interconnexion (probablement mesurée en PJ/bit) par rapport aux interconnexions concurrentes, et jusqu’à 128 To/s de bande passante bissectionnelle.
Le système a 150 miles de fibre optique et pèse 40 000 livres, mais se présente comme un seul GPU. Nvidia affirme que les 256 superpuces Grace Hopper propulsent le DGX GH200 à un exaflop de « performances IA », ce qui signifie que la valeur est mesurée avec des types de données plus petits qui sont plus pertinents pour les charges de travail IA que les mesures FP64 utilisées dans le HPC et le supercalcul. Cette performance est gracieuseté de 900 Go/s de bande passante GPU à GPU, ce qui est une évolutivité assez impressionnante étant donné que Grace Hopper atteint un débit de 1 To/s avec le processeur Grace lorsqu’il est connecté directement sur la même carte avec le NVLink. -Interconnexion de puce C2C.
Nvidia a fourni des références projetées du DGX GH200 avec le système de commutation NVLink en tête-à-tête avec un cluster DGX H100 lié à InfiniBand. Nvidia a utilisé un nombre variable de GPU pour les calculs de charge de travail ci-dessus, allant de 32 à 256, mais chaque système a utilisé le même nombre de GPU pour chaque test. Comme vous pouvez le voir, les gains explosifs de performances d’interconnexion devraient débloquer entre 2,2 et 6,3 fois plus de performances.
Nvidia fournira les plans de référence DGX GH200 à ses principaux clients, Google, Meta et Microsoft, avant la fin de 2023, et fournira également le système en tant que conception d’architecture de référence pour les fournisseurs de services cloud et les hyperscalers.
Nvidia mange aussi sa propre nourriture pour chiens; la société déploiera un nouveau supercalculateur Nvidia Helios composé de quatre systèmes DGX GH200 qu’elle utilisera pour ses propres travaux de recherche et développement. Les quatre systèmes, qui totalisent 1 024 puces Grace Hopper Superchips, seront liés au réseau Quantum-2 InfiniBand 400 Gb/s de Nvidia.
Architectures de référence des systèmes Nvidia MGX
Alors que DGX intervient pour les systèmes haut de gamme, les systèmes HGX de Nvidia interviennent pour les hyperscalers. Cependant, les nouveaux systèmes MGX constituent le point intermédiaire entre ces deux systèmes, et DGX et HGX continueront de coexister avec les nouveaux systèmes MGX.
Les partenaires OxM de Nvidia sont confrontés à de nouveaux défis avec des conceptions de serveurs centrées sur l’IA, ralentissant ainsi la conception et le déploiement. Les nouvelles architectures de référence MGX de Nvidia sont conçues pour accélérer ce processus avec plus de 100 conceptions de référence. Les systèmes MGX comprennent des conceptions modulaires qui couvrent toute la gamme de processeurs et de GPU, de DPU et de systèmes de mise en réseau de Nvidia, mais incluent également des conceptions basées sur les processeurs x86 et Arm courants que l’on trouve dans les serveurs actuels. Nvidia propose également des options pour les conceptions refroidies par air et par liquide, offrant ainsi aux OxM différents points de conception pour une large gamme d’applications.
Naturellement, Nvidia souligne que les systèmes principaux de QCT et Supermicro seront alimentés par ses Superchips Grace et Grace Hopper, mais nous prévoyons que les saveurs x86 auront probablement un plus large éventail de systèmes disponibles au fil du temps. Asus, Gigabyte, ASRock Rack et Pegatron utiliseront tous les architectures de référence MGX pour les systèmes qui seront commercialisés plus tard cette année au début de l’année prochaine.
Les conceptions de référence MGX pourraient être l’annonce dormante de l’explosion de presse Computex de Nvidia – ce seront les systèmes que les centres de données et les entreprises grand public déploieront éventuellement pour infuser des architectures centrées sur l’IA dans leurs déploiements, et seront livrés en bien plus grand nombre que les quelque peu exotiques et les systèmes DGX plus coûteux – ce sont les déménageurs de volume. Nvidia est toujours en train de finaliser la spécification, qui sera publique, et publiera bientôt un livre blanc.
Plate-forme réseau Nvidia Spectrum-X
L’achat de Mellanox par Nvidia s’est avéré être une décision cruciale pour l’entreprise, car elle peut désormais optimiser et régler les composants et logiciels de réseau pour ses besoins centrés sur l’IA. La nouvelle plate-forme réseau Spectrum-X est peut-être l’exemple parfait de ces capacités, car Nvidia la présente comme la « première plate-forme réseau Ethernet haute performance pour l’IA » au monde.
L’un des points clés ici est que Nvidia se tourne vers Ethernet en tant qu’option d’interconnexion pour les plates-formes d’IA hautes performances, par opposition aux connexions InfiniBand que l’on trouve souvent dans les systèmes hautes performances. La conception Spectrum-X utilise les commutateurs Ethernet 51 Tb/s Spectrum-4 400 GbE de Nvidia et les DPU Nvidia Bluefield-3 associés à des logiciels et des SDK qui permettent aux développeurs de régler les systèmes pour les besoins uniques des charges de travail d’IA. Contrairement à d’autres systèmes basés sur Ethernet, Nvidia affirme que Spectrum-X est sans perte, offrant ainsi une qualité de service et une latence supérieures. Il dispose également d’une nouvelle technologie de routage adaptatif, particulièrement utile dans les environnements multi-locataires.
La plate-forme de mise en réseau Spectrum-X est un aspect fondamental du portefeuille de Nvidia, car elle apporte des capacités de cluster d’IA hautes performances à la mise en réseau basée sur Ethernet, offrant de nouvelles options pour des déploiements plus larges de l’IA dans une infrastructure hyperscale. La plate-forme Spectrum-X est également entièrement interopérable avec les piles Ethernet existantes et offre une évolutivité impressionnante avec jusqu’à 256 ports 200 Gb/s sur un seul commutateur, ou 16 000 ports dans une topologie leaf-spine à deux niveaux.
La plate-forme Nvidia Spectrum-X et ses composants associés, y compris l’optique 400G LinkX, sont disponibles dès maintenant.
Nvidia Grace et Grace Hopper Superchip Supercomputing gagnent
Les premiers processeurs Arm de Nvidia (Grace) sont déjà en production et ont eu un impact avec trois victoires récentes sur les supercalculateurs, dont le Taiwania 4 récemment annoncé qui sera construit par le fournisseur informatique ASUS pour le Taiwan National Center for High-Performance Computing. Ce système comportera 44 nœuds CPU Grace et Nvidia affirme qu’il se classera parmi les superordinateurs les plus économes en énergie d’Asie une fois déployé. Le supercalculateur servira à modéliser les enjeux du changement climatique.