Au GTC 2022, NVIDIA a dévoilé son GPU Hopper H100, une centrale de calcul conçue pour la prochaine génération de centres de données. Cela fait un moment que nous n’avons pas parlé de cette puce puissante, mais il semble que NVIDIA ait donné un gros plan de sa puce phare pour sélectionner les médias.
GPU NVIDIA Hopper H100 : le premier avec la technologie 4nm et HBM3 obtient des images haute résolution
CNET a réussi à mettre la main non seulement sur la carte graphique sur laquelle le GPU H100 est fusionné, mais également sur la puce H100 elle-même. Le GPU H100 est une puce monstre dotée de la dernière technologie 4 nm et intègre 80 milliards de transistors ainsi que la technologie de mémoire HBM3 de pointe. Selon le point de vente technique, le H100 est construit sur la carte PCB PG520 qui a plus de 30 VRM de puissance et un interposeur intégral massif qui utilise la technologie CoWoS de TSMC pour combiner le GPU Hopper H100 avec une conception HBM3 à 6 piles.
GPU NVIDIA Hopper H100 illustré (Crédits image : CNET) :
Sur les six piles, deux piles sont conservées pour assurer l’intégrité du rendement. Mais la nouvelle norme HBM3 permet des capacités allant jusqu’à 80 Go à des vitesses de 3 To/s, ce qui est fou. À titre de comparaison, la carte graphique de jeu la plus rapide actuelle, la RTX 3090 Ti, offre seulement 1 To/s de bande passante et 24 Go de capacités VRAM. En dehors de cela, le GPU H100 Hopper intègre également le dernier format de données FP8 et, grâce à sa nouvelle connexion SXM, il permet de prendre en charge la conception de puissance de 700 W autour de laquelle la puce est conçue.
Spécifications du GPU NVIDIA Hopper H100 en un coup d’œil
En ce qui concerne les spécifications, le GPU NVIDIA Hopper GH100 est composé d’une configuration massive de puces 144 SM (Streaming Multiprocessor) qui est présentée dans un total de 8 GPC. Ces GPC basculent au total de 9 TPC qui sont en outre composés de 2 unités SM chacune. Cela nous donne 18 SM par GPC et 144 sur la configuration complète de 8 GPC. Chaque SM est composé de jusqu’à 128 unités FP32, ce qui devrait nous donner un total de 18 432 cœurs CUDA. Voici quelques-unes des configurations que vous pouvez attendre de la puce H100 :
La mise en œuvre complète du GPU GH100 comprend les unités suivantes :
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM par GPU complet
- 128 cœurs FP32 CUDA par SM, 18 432 cœurs FP32 CUDA par GPU complet
- 4 cœurs Tensor de quatrième génération par SM, 576 par GPU complet
- 6 piles HBM3 ou HBM2e, 12 contrôleurs de mémoire 512 bits
- Cache L2 de 60 Mo
- NVLink de quatrième génération et PCIe Gen 5
Le GPU NVIDIA H100 avec facteur de forme de carte SXM5 comprend les unités suivantes :
- 8 GPC, 66 TPC, 2 SM/TPC, 132 SM par GPU
- 128 cœurs FP32 CUDA par SM, 16896 cœurs FP32 CUDA par GPU
- 4 cœurs Tensor de quatrième génération par SM, 528 par GPU
- 80 Go HBM3, 5 piles HBM3, 10 contrôleurs de mémoire 512 bits
- Cache L2 de 50 Mo
- NVLink de quatrième génération et PCIe Gen 5
Il s’agit d’une augmentation de 2,25 fois par rapport à la configuration complète du GPU GA100. NVIDIA tire également parti de plus de cœurs FP64, FP16 et Tensor dans son GPU Hopper, ce qui augmenterait énormément les performances. Et ce sera une nécessité pour rivaliser avec le Ponte Vecchio d’Intel, qui devrait également comporter 1: 1 FP64.
Le cache est un autre espace auquel NVIDIA a accordé beaucoup d’attention, le portant à 48 Mo dans le GPU Hopper GH100. Il s’agit d’une augmentation de 20 % par rapport au cache de 50 Mo du GPU Ampere GA100 et de 3 fois la taille du GPU Aldebaran MCM phare d’AMD, le MI250X.
Pour résumer les performances, le GPU GH100 Hopper de NVIDIA offrira 4000 TFLOP de FP8, 2000 TFLOP de FP16, 1000 TFLOP de TF32 et 60 TFLOP de performance de calcul FP64. Ces chiffres record déciment tous les autres accélérateurs HPC qui l’ont précédé. À titre de comparaison, il est 3,3 fois plus rapide que le GPU A100 de NVIDIA et 28 % plus rapide que l’Instinct MI250X d’AMD dans le calcul FP64. Dans le calcul FP16, le GPU H100 est 3x plus rapide que l’A100 et 5,2x plus rapide que le MI250X qui est littéralement dingue.
La variante PCIe, qui est un modèle réduit, a récemment été cotée au Japon pour plus de 30 000 $ US, on peut donc imaginer que la variante SXM avec une configuration plus robuste coûtera facilement environ 50 000 $.
Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :
Carte graphique NVIDIA Tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla K40 (PCI-Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (Trémie) | GH100 (Trémie) | GA100 (Ampère) | GA100 (Ampère) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascal) | GP100 (Pascal) | GM200 (Maxwell) | GK110 (Képler) |
Nœud de processus | 4nm | 4nm | 7nm | 7nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
Transistors | 80 milliards | 80 milliards | 54,2 milliards | 54,2 milliards | 21,1 milliards | 21,1 milliards | 15,3 milliards | 15,3 milliards | 8 milliards | 7,1 milliards |
Taille de matrice GPU | 814mm2 | 814mm2 | 826mm2 | 826mm2 | 815mm2 | 815mm2 | 610 mm2 | 610 mm2 | 601mm2 | 551 mm2 |
SMS | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPC | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Cœurs CUDA FP32 par SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Cœurs CUDA FP64 / SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Cœurs CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Cœurs CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Noyaux tenseurs | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
Unités de textures | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Booster l’horloge | À déterminer | À déterminer | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 2000 TOP 4000 TOP |
1600 TOP 3200 TOP |
1248 TOP 2496 TOP avec parcimonie |
1248 TOP 2496 TOP avec parcimonie |
130 TOP | 125 TOP | N / A | N / A | N / A | N / A |
FP16 Calcul | 2000 TFLOP | 1600 TFLOP | 312 TFLOP 624 TFLOP avec parcimonie |
312 TFLOP 624 TFLOP avec parcimonie |
32,8 TFLOP | 30.4 TFLOP | 21.2 TFLOP | 18.7 TFLOP | N / A | N / A |
Calcul FP32 | 1000 TFLOP | 800 TFLOP | 156 TFLOP (norme 19,5 TFLOP) |
156 TFLOP (norme 19,5 TFLOP) |
16.4 TFLOP | 15.7 TFLOP | 10.6 TFLOP | 10.0 TFLOP | 6.8 TFLOP | 5.04 TFLOP |
Calcul FP64 | 60 TFLOP | 48 TFLOP | 19.5 TFLOP (norme 9.7 TFLOP) |
19.5 TFLOP (norme 9.7 TFLOP) |
8.2 TFLOP | 7,80 TFLOP | 5.30 TFLOP | 4.7 TFLOP | 0,2 TFLOP | 1,68 TFLOP |
Interface mémoire | HBM3 5120 bits | HBM2e 5120 bits | HBM2e 6144 bits | HBM2e 6144 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | GDDR5 384 bits | GDDR5 384 bits |
Taille mémoire | Jusqu’à 80 Go HBM3 à 3,0 Gbit/s | Jusqu’à 80 Go HBM2e à 2,0 Gbit/s | Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 1,6 To/s |
Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 2,0 To/s |
16 Go HBM2 à 1134 Go/s | 16 Go HBM2 à 900 Go/s | 16 Go HBM2 à 732 Go/s | 16 Go HBM2 à 732 Go/s 12 Go HBM2 à 549 Go/s |
24 Go GDDR5 à 288 Go/s | 12 Go GDDR5 à 288 Go/s |
Taille du cache L2 | 51200 Ko | 51200 Ko | 40960 Ko | 40960 Ko | 6144 Ko | 6144 Ko | 4096 Ko | 4096 Ko | 3072 Ko | 1536 Ko |
PDT | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |