Nvidia a taquiné son prochain processeur Grace basé sur Arm au GTC 2023, mais l’annonce de la société selon laquelle les systèmes seront désormais livrés au cours du second semestre de cette année représente un retard par rapport à son calendrier de lancement initial qui visait le premier semestre 2023. Nous avons demandé au PDG de Nvidia, Jensen Huang à propos du retard lors d’une séance de questions-réponses avec la presse aujourd’hui, que nous aborderons ci-dessous. Nvidia a également montré son silicium Grace pour la première fois et a fait de nombreuses nouvelles revendications de performances lors de son discours d’ouverture GTC, notamment que ses puces Grace basées sur Arm sont jusqu’à 1,3 fois plus rapides que les concurrents x86 à 60% de la puissance, ce que nous allons couvrir également.
J’ai interrogé Jensen Huang sur le retard dans la livraison des systèmes Grace CPU et Grace Hopper Superchip au marché final. Après avoir repoussé de manière ludique la date de sortie prévue (il était sans doute 1H23, maintenant 2H23), il a répondu :
« Eh bien, tout d’abord, je peux vous dire que Grace et Grace Hopper sont toutes les deux en production, et que le silicium vole à travers l’usine maintenant. Des systèmes sont en cours de fabrication, et nous avons fait beaucoup d’annonces. Les équipementiers et les fabricants d’ordinateurs du monde entier les construisent. . » Huang a également fait remarquer que Nvidia ne travaille sur les puces que depuis deux ans, ce qui est relativement court compte tenu du cycle de conception typique de plusieurs années pour une puce moderne.
La définition actuelle des systèmes d’expédition peut être floue – les premiers systèmes d’AMD et d’Intel sont souvent livrés à des hyperscalers pour un déploiement bien avant que les puces ne soient disponibles sur étagère. Cependant, alors que Nvidia dit qu’il échantillonne des puces aux clients, il n’a pas encore dit que Grace était déployée en production. En tant que telles, les puces sont en retard selon les projections de la société, mais pour être juste, les lancements de puces toujours en retard par des sociétés comme Intel ne sont pas rares. Cela met en évidence la difficulté de lancer une nouvelle puce, même en construisant autour des puces x86 dominantes avec des plates-formes matérielles et logicielles établies depuis des décennies.
En revanche, les puces Grace et Grace + Hopper de Nvidia repensent de fond en comble de nombreux aspects fondamentaux de la conception des puces avec une nouvelle interconnexion puce à puce innovante. L’utilisation par Nvidia du jeu d’instructions Arm signifie également qu’il y a un poids plus lourd pour les optimisations et le portage des logiciels, et la société a une toute nouvelle plate-forme à construire.
Jensen a fait allusion à une partie de cela dans sa réponse détaillée, en disant : « Nous avons commencé avec des Superchips au lieu de chiplets parce que les choses que nous voulons construire sont si grandes, et les deux sont en production aujourd’hui. Donc, les clients sont échantillonnés, le logiciel est en cours de portage, et nous faisons beaucoup de tests. Pendant la keynote, j’ai montré quelques chiffres, et je ne voulais pas alourdir la keynote avec beaucoup de chiffres, mais tout un tas de chiffres seront disponibles pour que les gens puissent en profiter. Mais la performance était vraiment formidable.
Et les affirmations de Nvidia sont impressionnantes. Par exemple, dans l’album ci-dessus, vous pouvez voir la puce Grace Hopper que Nvidia a montrée en chair et en os pour la première fois au GTC (plus de détails techniques ici).
Au cours de la présentation, Huang a affirmé que les puces sont 1,2 fois plus rapides que la puce de serveur x86 de nouvelle génération « moyenne » dans un benchmark gourmand en mémoire HiBench Apache Spark et 1,3 fois plus rapides dans un benchmark de communication de microservices Google, tout en ne tirant que 60 % de la puissance.
Nvidia affirme que cela permet aux centres de données de déployer 1,7 fois plus de serveurs Grace dans des tranches à puissance limitée, chacune offrant un débit 25 % plus élevé. La société affirme également que Grace est 1,9 fois plus rapide dans les charges de travail de dynamique des fluides computationnelle (CFD).
Cependant, alors que les puces Grace sont ultra-performantes et efficaces dans certaines charges de travail, Nvidia ne les vise pas sur le marché des serveurs à usage général. Au lieu de cela, la société a adapté les puces pour des cas d’utilisation spécifiques, comme les charges de travail d’IA et de cloud qui favorisent des performances supérieures de traitement à un seul thread et de mémoire en tandem avec une excellente efficacité énergétique.
« [..]presque tous les centres de données sont maintenant limités en puissance, et nous avons conçu Grace pour qu’elle soit extraordinairement performante dans un environnement à puissance limitée », nous a dit Huang en réponse à nos questions. « Et dans ce cas, vous devez être à la fois très performants , et vous devez être très faible en puissance et incroyablement efficace. Ainsi, le système Grace est environ deux fois plus efficace en termes de puissance/performance par rapport aux meilleurs processeurs de dernière génération. »
« Et il est conçu pour différents points de conception, donc c’est très compréhensible », a poursuivi Huang. « Par exemple, ce que je viens de décrire n’a pas d’importance pour la plupart des entreprises. Cela compte beaucoup pour les fournisseurs de services cloud, et cela compte beaucoup pour les centres de données alimentés de manière illimitée. »
L’efficacité énergétique devient plus préoccupante que jamais, avec des puces comme l’AMD EPYC Genoa que nous avons récemment examinées et les Sapphire Rapids d’Intel atteignant désormais 400 et 350 watts, respectivement. Cela nécessite de nouvelles solutions de refroidissement par air exotiques pour contenir la consommation électrique prodigieuse aux réglages standard et un refroidissement par liquide pour les options les plus performantes.
En revanche, la faible consommation d’énergie de Grace rendra les puces plus indulgentes à refroidir. Comme révélé au GTC pour la première fois, le package Grace à 144 cœurs de Nvidia mesure 5 « x 8 » et peut s’intégrer dans des modules refroidis passivement qui sont étonnamment compacts. Ces modules reposent toujours sur le refroidissement par air, mais deux peuvent être refroidis par air dans un seul châssis mince 1U.
Nvidia a également présenté son silicium Grace Hopper Superchip pour la première fois au GTC. Le Superchip combine le processeur Grace avec un GPU Hopper sur le même boîtier. Comme vous pouvez le voir dans l’album ci-dessus, deux de ces modules peuvent également s’intégrer dans un seul châssis de serveur. Vous pouvez lire les détails détaillés sur cette conception ici.
Le grand avantage de cette conception est que la cohérence améliorée de la mémoire CPU + GPU, alimentée par une connexion puce à puce à faible latence qui est sept fois la vitesse de l’interface PCIe, permet au CPU et au GPU de partager les informations stockées en mémoire. à une vitesse et une efficacité impossibles avec les conceptions précédentes.
Huang a expliqué que cette approche est idéale pour l’IA, les bases de données, les systèmes de recommandation et les grands modèles de langage (LLM), qui sont tous très demandés. En permettant au GPU d’accéder directement à la mémoire du CPU, les transferts de données sont rationalisés pour améliorer les performances.
Les puces Grace de Nvidia ont peut-être un peu de retard, mais la société a une multitude de partenaires, avec Asus, Atos, Gigabyte, HPE, Supermicro, QCT, Wiston et Zt qui préparent tous des systèmes OEM pour le marché. Ces systèmes sont maintenant attendus dans la seconde moitié de l’année, mais Nvidia n’a pas dit s’ils arriveront ou non vers le début ou la fin de la seconde moitié.