Quelques jours avant le lancement de Supercomputing 22, Intel a présenté (s’ouvre dans un nouvel onglet) son processeur Xeon Max de nouvelle génération, précédemment nommé Sapphire Rapids HBM, et les GPU de calcul Data Center GPU Max Series, connus sous le nom de Ponte Vecchio. Les nouveaux produits répondent à différents types de charges de travail de calcul haute performance ou travaillent ensemble pour résoudre les tâches de calcul intensif les plus complexes.
Le processeur Xeon Max : Sapphire Rapids obtient 64 Go de HBM2E
Les processeurs x86 à usage général sont utilisés pour pratiquement tous les types de calcul technique depuis des décennies et prennent donc en charge de nombreuses applications. Cependant, alors que les performances des cœurs de processeur à usage général évoluent assez rapidement depuis des années, les processeurs actuels présentent deux limitations importantes concernant les performances dans l’intelligence artificielle et les charges de travail HPC : la parallélisation et la bande passante mémoire. Les processeurs Intel Xeon Max « Sapphire Rapids HBM » promettent de supprimer les deux frontières.
Le processeur Xeon Max d’Intel comprend jusqu’à 56 cœurs Golden Cove hautes performances (répartis sur quatre puces interconnectées à l’aide de la technologie EMIB d’Intel) encore améliorés avec plusieurs moteurs d’accélération pour les charges de travail AI et HPC et 64 Go de mémoire HBM2E intégrée. Comme les autres processeurs Sapphire Rapids, le Xeon Max prendra toujours en charge huit canaux de mémoire DDR5 et l’interface PCIe Gen 5 avec le protocole CXL 1.1 en plus, il pourra donc utiliser tous ces accélérateurs compatibles CXL quand cela aura du sens.
En plus de la prise en charge des accélérateurs vectoriels AVX-512 et Deep Learning Boost (AVX512_VNNI et AVX512_BF16), les nouveaux cœurs apportent également l’accélérateur de multiplication de matrice tuilée Advanced Matrix Extensions (AMX), qui est essentiellement une grille d’unités de multiplication-addition fusionnées prenant en charge BF16 et INT8 types d’entrée qui peuvent être programmés à l’aide de seulement 12 instructions et effectuer jusqu’à 1 024 opérations TMUL BF16 ou 2 048 opérations TMUL INT8 par cycle et par cœur. En outre, le nouveau processeur prend en charge Data Streaming Accelerator (DSA), qui décharge les charges de travail de copie et de transformation des données du processeur.
64 Go de mémoire HBM2E intégrée (quatre piles de 16 Go) fournissent une bande passante maximale d’environ 1 To/s, ce qui se traduit par environ 1,14 Go de HBM2E par cœur à 18,28 Go/s par cœur. Pour mettre les chiffres en contexte, un processeur Sapphire Rapids à 56 cœurs équipé de huit modules DDR5-4800 obtient jusqu’à 307,2 Go/s de bande passante, soit 5,485 Go/s par cœur. Pendant ce temps, Xeon Max peut utiliser sa mémoire HBM2E de différentes manières : l’utiliser comme mémoire système, ce qui ne nécessite aucun changement de code ; utilisez-le comme cache haute performance pour le sous-système de mémoire DDR5, qui ne nécessite pas de code de modification ; utilisez-le dans le cadre d’un pool de mémoire unifié (mode plat HBM), ce qui implique des optimisations logicielles.
En fonction de la charge de travail, le processeur Xeon Max compatible AMX d’Intel peut fournir une amélioration des performances de 3 à 5,3 fois par rapport au processeur Xeon Scalable 8380 actuellement disponible qui utilise le traitement FP32 conventionnel pour les mêmes charges de travail. Pendant ce temps, dans des applications telles que le développement de modèles pour la dynamique moléculaire, les nouveaux processeurs équipés de HBM2E sont jusqu’à 2,8 fois plus rapides que l’EPYC 7773X d’AMD, qui dispose du V-Cache 3D.
Mais HBM2E a une autre implication importante pour Intel car il réduit quelque peu la surcharge de mouvement de données entre le CPU et le GPU, ce qui est essentiel pour diverses charges de travail HPC. Cela nous amène à la deuxième des annonces d’aujourd’hui : les GPU de calcul Data Center GPU Max Series.
Le Data Center GPU Max : le summum des innovations d’Intel pour les centres de données
La série de GPU de calcul Data Center GPU Max d’Intel utilisera l’architecture Ponte Vecchio de la société, introduite pour la première fois en 2019, puis détaillée en 2020 ~ 2021. Le Ponte Vecchio d’Intel est le processeur le plus complexe jamais créé, car il contient plus de 100 milliards de transistors (sans compter mémoire) sur 47 tuiles (dont 8 tuiles HBM2E). En outre, le produit utilise largement les technologies de conditionnement avancées d’Intel (par exemple, EMIB) car différentes tuiles sont fabriquées par d’autres fabricants utilisant différentes technologies de processus.
Les GPU de calcul Data Center GPU Max d’Intel s’appuieront sur l’architecture Xe-HPC de la société spécialement conçue pour les charges de travail AI et HPC et prendront donc en charge les formats de données et les instructions appropriés ainsi que les moteurs vectoriels 512 bits et matriciels (tenseurs) 4096 bits.
Centre de données Max 1100 | Centre de données Max 1350 | Centre de données Max 1550 | AMD Instinct MI250X | Nvidia H100 | Nvidia H100 | Pont du Rialto | |
---|---|---|---|---|---|---|---|
Facteur de forme | PCIe | OAM | OAM | OAM | SXM | PCIe | OAM |
Tuiles + Mémoire | ? | ? | 39+8 | 2+8 | 1+6 | 1+6 | de nombreux |
Transistors | ? | ? | 100 milliards | 58 milliards | 80 milliards | 80 milliards | des tas d’entre eux |
Xe cœurs HPC | Unités de calcul | 56 | 112 | 128 | 220 | 132 | 114 | 160 cœurs Xe HPC améliorés |
Cœurs RT | 56 | 112 | 128 | – | – | – | ? |
Moteurs vectoriels 512 bits | 448 | 896 | 1024 | ? | ? | ? | ? |
Moteurs matriciels 4096 bits | 448 | 896 | 1024 | ? | ? | ? | ? |
Cache L1 | ? | ? | 64 Mo à 105 To/s | ? | ? | ? | ? |
Cache Rambo L2 | ? | ? | 408 Mo à 13 To/s | ? | 50 Mo | 50 Mo | ? |
HBM2E | 48 Go | 96 Go | 128 Go à 3,2 To/s | 128 Go/s à 3,2 To/s | 80 Go à 3,35 To/s | 8 Go à 2 To/s | ? |
E/S multi-GPU | 8 | 16 | 16 | 8 | 8 | 8 | ? |
Du pouvoir | 300W | 450W | 600W | 560W | 700W | 350W | 800W |
Par rapport à Xe-HPG, Xe-HPC possède des sous-systèmes de mémoire et de mise en cache considérablement plus sophistiqués, des cœurs Xe configurés différemment (chaque cœur Xe-HPG comprend 16 moteurs vectoriels 256 bits et 16 moteurs matriciels 1024 bits, tandis que chaque cœur Xe-HPC arbore huit vecteur 512 bits et huit moteurs vectoriels 4096 bits). De plus, les GPU Xe-HPC ne comportent pas d’unités de texturation ni de back-ends de rendu, ils ne peuvent donc pas rendre les graphiques à l’aide de méthodes traditionnelles. Pendant ce temps, Xe-HPG prend étonnamment en charge le lancer de rayons pour la visualisation par superordinateur.
L’un des ingrédients les plus importants de Xe-HPC est les extensions Xe Matrix (XMX) d’Intel qui permettent des performances tenseur/matrice plutôt formidables du GPU Max 1550 du centre de données d’Intel (voir le tableau ci-dessous) – jusqu’à 419 TF32 TFLOPS et jusqu’à 1678 INT8 TOPS, selon Intel. Bien sûr, les chiffres de performances de pointe fournis par les développeurs de GPU de calcul sont importants, mais peuvent ne pas refléter les performances réalisables sur des supercalculateurs du monde réel dans des applications du monde réel. Pourtant, nous ne pouvons pas nous empêcher de remarquer que le Ponte Vecchio d’Intel est nettement derrière le H100 de Nvidia dans la plupart des cas et ne fournit pas d’avantages tangibles par rapport à l’Instinct MI250X d’AMD dans tous les cas, à l’exception du FP32 Tensor (TF32).
Centre de données Max 1550 | AMD Instinct MI250X | Nvidia H100 | Nvidia H100 | |
---|---|---|---|---|
Facteur de forme | OAM | OAM | SXM | PCIe |
HBM2E | 128 Go à 3,2 To/s | 128 Go/s à 3,2 To/s | 80 Go à 3,35 To/s | 80 Go à 2 To/s |
Du pouvoir | 600W | 560W | 700W | 350W |
Pic vecteur INT8 | ? | 383 TOPS | 133.8 TFLOPS | 102.4 TFLOPS |
Pic vecteur FP16 | 104 TFLOPS | 383 TFLOPS | 134 TFLOPS | 102.4 TFLOPS |
Pic vecteur BF16 | ? | 383 TFLOPS | 133.8 TFLOPS | 102.4 TFLOPS |
Pic vecteur FP32 | 52 TFLOPS | 47.9 TFLOPS | 67 TFLOPS | 51 TFLOPS |
Pic vecteur FP64 | 52 TFLOPS | 47.9 TFLOPS | 34 TFLOPS | 26 TFLOPS |
Pic INT8 Tenseur | 1678 HAUTS | ? | HAUTS 1979 | 3958 HAUTS* | 1513 HAUTS | 3026 HAUTS* |
Pic FP16 Tenseur | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Pic BF16 Tenseur | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Tenseur de crête FP32 | 419 TFLOPS | 95,7 TFLOPS | 989 TFLOPS | 756 TFLOPS |
Pic FP64 Tenseur | – | 95,7 TFLOPS | 67 TFLOPS | 51 TFLOPS |
Pendant ce temps, Intel affirme que son Data Center GPU Max 1550 est 2,4 fois plus rapide que l’A100 de Nvidia sur la tarification de l’option de crédit Riskfuel et offre une amélioration des performances de 1,5 fois par rapport à l’A100 pour les simulations de réacteurs virtuels NekRS.
Intel prévoit de proposer trois produits Ponte Vecchio : le haut de gamme Data Center GPU Max 1550 au format OAM avec 128 cœurs Xe-HPC, 128 Go de mémoire HBM2E et une puissance de conception thermique allant jusqu’à 600 W ; le GPU Data Center Max 1350 réduit au format OAM avec 112 cœurs Xe-HPC, 96 Go de mémoire et un TDP de 450 W ; et le Data Center GPU Max 1100 d’entrée de gamme qui se présente dans un facteur de forme FLFH double largeur et embarque un processeur avec 56 cœurs Xe-HPC, dispose de 56 Go de mémoire HBM2E et évalué pour un TDP de 300 W.
Pendant ce temps, à ses clients de supercalculateurs, Intel proposera des sous-systèmes de la série Max avec quatre modules OAM sur une carte porteuse conçue pour un TDP de 1 800 W et 2 400 W.
Pont Rialto d’Intel : améliorer le maximum
En plus de dévoiler officiellement ses GPU de calcul Data Center GPU Max, Intel a également donné aujourd’hui un aperçu de son GPU Data Center de nouvelle génération, nommé Rialto Bridge, qui arrivera en 2024. Ce GPU de calcul AI et HPC sera basé sur Xe- Les cœurs HPC, vraisemblablement avec une architecture légèrement différente, mais conserveront la compatibilité avec les applications basées sur Ponte Vecchi. Malheureusement, cette complexité supplémentaire augmentera le TDP du GPU de calcul phare de nouvelle génération à 800 W, bien qu’il y ait des versions plus simples et moins gourmandes en énergie.
Disponibilité
L’un des premiers clients à obtenir à la fois les produits Intel Xeon Max et Intel Data Center GPU Max sera le laboratoire national d’Argonne, qui construit ses > 2 supercalculateurs ExaFLOPS basés sur plus de 10 000 lames utilisant des processeurs Xeon Max et des périphériques Data Center GPU Max (deux processeurs et six GPU par lame). De plus, Intel et Argonne terminent la construction de Sunspot, le système de développement de test d’Aurora composé de 128 lames de production qui seront disponibles pour les parties intéressées fin 2022. Le supercalculateur Aurora devrait être mis en ligne en 2023.
Les partenaires d’Intel, parmi les fabricants de serveurs, lanceront des machines basées sur des processeurs Xeon Max et des appareils Data Center GPU Max en janvier 2023.