Nvidia a dévoilé sa nouvelle puce CPU Grace à 144 cœurs, sa première puce Arm uniquement CPU conçue pour le centre de données, de retour au GTC. Nvidia a partagé une référence par rapport à l’EPYC d’AMD pour revendiquer une avance de 1,5X, mais ce n’est pas une comparaison très utile. Cependant, nous avons trouvé une référence de Grace contre Ice Lake d’Intel enfouie dans une présentation GTC du vice-président de Nvidia de son unité commerciale Accelerated Computing, Ian Buck. Cette référence affirme que Grace est 2 fois plus rapide et 2,3 fois plus économe en énergie que la génération actuelle d’Ice Lake d’Intel dans un modèle de recherche et de prévision météorologiques (WRF) couramment utilisé dans le HPC.
Le premier benchmark de Nvidia a affirmé que Grace est 1,5 fois plus rapide dans le benchmark SPECrate_2017 que deux processeurs EPYC Rome 7742 à 64 cœurs de la génération précédente et qu’il offrira deux fois l’efficacité énergétique des puces de serveur d’aujourd’hui lorsqu’il arrivera au début de 2023. Cependant, ces références comparer aux puces de la génération précédente – les puces Rome auront quatre ans lorsque Grace arrivera l’année prochaine, et AMD a déjà sa livraison EPYC Milan plus rapide. Compte tenu de la comparaison avec Rome, nous pouvons nous attendre à ce que Grace de Nvidia soit à égalité avec le nouveau Milan en termes de performances et de performances par watt. Cependant, même cette comparaison n’a pas vraiment d’importance; L’EPYC Genoa d’AMD sera disponible en 2023, et il sera encore plus rapide.
Cela rend la comparaison de Nvidia avec la génération actuelle d’Ice Lake d’Intel un peu plus intéressante. Ainsi, même si Intel aura ses Sapphire Rapids disponibles d’ici 2023, au moins nous nous rapprochons d’une génération dans la comparaison ci-dessous. Naturellement, il s’agit d’un résultat de référence fourni par le fournisseur et basé sur une simulation du processeur Grace, alors prenez les affirmations de Nvidia avec un grain de sel.
Pour rappel, le Grace CPU Superchip de Nvidia est un processeur Arm v9 Neoverse (N2 Perseus) avec 144 cœurs répartis sur deux matrices fusionnées avec la nouvelle technologie d’interconnexion NVLink-C2C de Nvidia qui offre 900 Go/s de débit et de cohérence mémoire. De plus, la puce utilise 1 To de mémoire LPDDR5x ECC qui fournit jusqu’à 1 To/s de bande passante mémoire, soit le double de celle des autres processeurs de centre de données prenant en charge la mémoire DDR5.
Et ne vous y trompez pas, ce débit de mémoire amélioré joue directement sur les points forts de la superpuce Grace CPU dans le modèle de recherche et de prévision météorologique (WRF) ci-dessus. Nvidia affirme que ses simulations de la puce Grace à 144 cœurs montrent qu’elle sera 2 fois plus rapide et fournira 2,3 fois l’efficacité énergétique de deux processeurs Intel « Ice Lake » Xeon Platinum 8360Y à 36 cœurs et 72 threads dans la simulation WRF. Cela signifie que nous voyons 144 threads Arm (chacun sur un cœur physique), face à 144 threads x86 hyperthreadés (deux threads par cœur physique).
Les différentes permutations de WRF sont des charges de travail réelles couramment utilisées pour l’analyse comparative, et de nombreux modules ont été portés pour l’accélération GPU avec CUDA. Nous avons suivi Nvidia à propos de cette référence spécifique, et la société affirme que ce module n’a pas encore été porté sur les GPU, il est donc centré sur le processeur. De plus, il est très sensible à la bande passante mémoire, ce qui donne à Grace une longueur d’avance en termes de performances et d’efficacité. Les estimations de Nvidia sont « basées sur la norme NCAR WRF, version 3.9.1.1 portée sur Arm, pour le modèle IB4 (une prévision régionale de 4 km de la péninsule ibérique) ».
L’énorme débit de mémoire de Grace rapportera des dividendes en termes de performances et d’efficacité énergétique, car le débit accru réduit le nombre de cycles inactifs en maintenant les cœurs gourmands alimentés en données. Les puces utilisent également LPDDR5X à faible puissance par rapport à la DDR4 d’Ice Lake.
Cependant, Grace n’aura probablement pas autant d’avantages par rapport aux prochains Sapphire Rapids d’Intel – ces puces prennent en charge la mémoire DDR5 et ont également des variantes avec la mémoire HBM qui pourraient aider à contrer les forces de Grace dans certaines applications gourmandes en bande passante mémoire. AMD a également son Milan-X avec un cache L3 empilé en 3D (3D V-Cache) qui profite à certaines charges de travail, et nous prévoyons que la société fabriquera des SKU similaires pour la famille EPYC Genoa.
Il est révélateur que Nvidia ait utilisé des repères montrant un gain de 1,5X par rapport à l’EPYC Rome de la génération précédente d’AMD pour ses comparaisons de référence à GTC et dans ses communiqués de presse au lieu d’utiliser son gain 2X plus important par rapport à la génération actuelle d’Intel Ice Lake. Au lieu de cela, il a enterré la comparaison Intel dans une présentation GTC. Étant donné qu’AMD est le leader du centre de données, Nvidia a peut-être estimé que même réussir à battre ses puces de la génération précédente était plus impressionnant que de supprimer les meilleurs d’Intel de la génération actuelle.
Dans les deux cas, cela ne signifie pas que Nvidia n’utilise pas le silicium d’Intel. Par exemple, Jensen Huang de Nvidia nous a dit lors d’une récente table ronde que « […]Sans les processeurs Intel de nos ordinateurs Omniverse qui arrivent, nous ne serions pas en mesure de faire les simulations de jumeaux numériques qui reposent si profondément sur les performances à un seul thread pour lesquelles ils sont vraiment bons.«
En fait, ces serveurs Nvidia OVX utilisent chacun deux des processeurs Intel Ice Lake 8362 à 32 cœurs, et ils sont évidemment sélectionnés parce qu’ils sont plus agiles dans le travail à un seul thread que l’EPYC d’AMD, du moins pour ce cas d’utilisation spécifique. Fait intéressant, Nvidia n’a encore partagé aucune projection des prouesses de Grace dans le travail à un seul thread, préférant plutôt montrer son poids fileté pur pour l’instant.
Il y aura certainement des moments intéressants à venir alors qu’un nouveau concurrent très sérieux entre dans la course du processeur du centre de données, cette fois avec une conception de bras spécialisée qui est étroitement intégrée à ce qui devient rapidement le plus important cruncher de nombres de tous dans le centre de données : le GPU .
Dans l’ensemble, Nvidia affirme que le Grace CPU Superchip sera le processeur le plus rapide du marché lorsqu’il sera livré au début de 2023 pour un large éventail d’applications, telles que l’informatique à grande échelle, l’analyse de données et le calcul scientifique. Indépendamment des performances de la puce CPU Grace de Nvidia par rapport aux autres puces de centre de données en 2023, il y aura certainement beaucoup de choix dans les années à venir, en particulier pour la myriade de charges de travail HPC présentées ci-dessous qui fonctionnent déjà sur Arm. Compte tenu de la récente explosion de nouvelles puces basées sur Arm dans le centre de données, nous nous attendons à ce que cette liste s’allonge rapidement.