2024 - Le GPU NVIDIA Hopper H100 illustré dans toute sa splendeur : le GPU 4 nm le plus rapide au monde et le premier au monde avec mémoire HBM3

Le GPU Datacenter phare de NVIDIA, le Hopper H100, a été photographié dans toute sa splendeur. (Crédits image : CNET)

Au GTC 2022, NVIDIA a dévoilé son GPU Hopper H100, une centrale de calcul conçue pour la prochaine génération de centres de données. Cela fait un moment que nous n’avons pas parlé de cette puce puissante, mais il semble que NVIDIA ait donné un gros plan de sa puce phare pour sélectionner les médias.

GPU NVIDIA Hopper H100 : le premier avec la technologie 4nm et HBM3 obtient des images haute résolution

CNET a réussi à mettre la main non seulement sur la carte graphique sur laquelle le GPU H100 est fusionné, mais également sur la puce H100 elle-même. Le GPU H100 est une puce monstre dotée de la dernière technologie 4 nm et intègre 80 milliards de transistors ainsi que la technologie de mémoire HBM3 de pointe. Selon le point de vente technique, le H100 est construit sur la carte PCB PG520 qui a plus de 30 VRM de puissance et un interposeur intégral massif qui utilise la technologie CoWoS de TSMC pour combiner le GPU Hopper H100 avec une conception HBM3 à 6 piles.

NVIDIA GeForce RTX 4090 de nouvelle génération avec le meilleur GPU AD102 pourrait être la première carte graphique de jeu à dépasser les 100 TFLOP

GPU NVIDIA Hopper H100 illustré (Crédits image : CNET) :

Sur les six piles, deux piles sont conservées pour assurer l’intégrité du rendement. Mais la nouvelle norme HBM3 permet des capacités allant jusqu’à 80 Go à des vitesses de 3 To/s, ce qui est fou. À titre de comparaison, la carte graphique de jeu la plus rapide actuelle, la RTX 3090 Ti, offre seulement 1 To/s de bande passante et 24 Go de capacités VRAM. En dehors de cela, le GPU H100 Hopper intègre également le dernier format de données FP8 et, grâce à sa nouvelle connexion SXM, il permet de prendre en charge la conception de puissance de 700 W autour de laquelle la puce est conçue.

Spécifications du GPU NVIDIA Hopper H100 en un coup d’œil

En ce qui concerne les spécifications, le GPU NVIDIA Hopper GH100 est composé d’une configuration massive de puces 144 SM (Streaming Multiprocessor) qui est présentée dans un total de 8 GPC. Ces GPC basculent au total de 9 TPC qui sont en outre composés de 2 unités SM chacune. Cela nous donne 18 SM par GPC et 144 sur la configuration complète de 8 GPC. Chaque SM est composé de jusqu’à 128 unités FP32, ce qui devrait nous donner un total de 18 432 cœurs CUDA. Voici quelques-unes des configurations que vous pouvez attendre de la puce H100 :

La mise en œuvre complète du GPU GH100 comprend les unités suivantes :

Le PDG d’Intel, Pat Gelsinger, prévoit la fin des pénuries de puces d’ici 2024

8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM par GPU complet
128 cœurs FP32 CUDA par SM, 18 432 cœurs FP32 CUDA par GPU complet
4 cœurs Tensor de quatrième génération par SM, 576 par GPU complet
6 piles HBM3 ou HBM2e, 12 contrôleurs de mémoire 512 bits
Cache L2 de 60 Mo
NVLink de quatrième génération et PCIe Gen 5

Le GPU NVIDIA H100 avec facteur de forme de carte SXM5 comprend les unités suivantes :

8 GPC, 66 TPC, 2 SM/TPC, 132 SM par GPU
128 cœurs FP32 CUDA par SM, 16896 cœurs FP32 CUDA par GPU
4 cœurs Tensor de quatrième génération par SM, 528 par GPU
80 Go HBM3, 5 piles HBM3, 10 contrôleurs de mémoire 512 bits
Cache L2 de 50 Mo
NVLink de quatrième génération et PCIe Gen 5

Il s’agit d’une augmentation de 2,25 fois par rapport à la configuration complète du GPU GA100. NVIDIA tire également parti de plus de cœurs FP64, FP16 et Tensor dans son GPU Hopper, ce qui augmenterait énormément les performances. Et ce sera une nécessité pour rivaliser avec le Ponte Vecchio d’Intel, qui devrait également comporter 1: 1 FP64.

Le cache est un autre espace auquel NVIDIA a accordé beaucoup d’attention, le portant à 48 Mo dans le GPU Hopper GH100. Il s’agit d’une augmentation de 20 % par rapport au cache de 50 Mo du GPU Ampere GA100 et de 3 fois la taille du GPU Aldebaran MCM phare d’AMD, le MI250X.

Pour résumer les performances, le GPU GH100 Hopper de NVIDIA offrira 4000 TFLOP de FP8, 2000 TFLOP de FP16, 1000 TFLOP de TF32 et 60 TFLOP de performance de calcul FP64. Ces chiffres record déciment tous les autres accélérateurs HPC qui l’ont précédé. À titre de comparaison, il est 3,3 fois plus rapide que le GPU A100 de NVIDIA et 28 % plus rapide que l’Instinct MI250X d’AMD dans le calcul FP64. Dans le calcul FP16, le GPU H100 est 3x plus rapide que l’A100 et 5,2x plus rapide que le MI250X qui est littéralement dingue.

La variante PCIe, qui est un modèle réduit, a récemment été cotée au Japon pour plus de 30 000 $ US, on peut donc imaginer que la variante SXM avec une configuration plus robuste coûtera facilement environ 50 000 $.

Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :

Carte graphique NVIDIA Tesla	NVIDIA H100 (SMX5)	NVIDIA H100 (PCIe)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIe4)	Tesla V100S (PCIe)	Tesla V100 (SXM2)	Tesla P100 (SXM2)	Tesla P100 (PCI-Express)	Tesla M40 (PCI-Express)	Tesla K40 (PCI-Express)
GPU	GH100 (Trémie)	GH100 (Trémie)	GA100 (Ampère)	GA100 (Ampère)	GV100 (Volta)	GV100 (Volta)	GP100 (Pascal)	GP100 (Pascal)	GM200 (Maxwell)	GK110 (Képler)
Nœud de processus	4nm	4nm	7nm	7nm	12nm	12nm	16nm	16nm	28nm	28nm
Transistors	80 milliards	80 milliards	54,2 milliards	54,2 milliards	21,1 milliards	21,1 milliards	15,3 milliards	15,3 milliards	8 milliards	7,1 milliards
Taille de matrice GPU	814mm2	814mm2	826mm2	826mm2	815mm2	815mm2	610 mm2	610 mm2	601mm2	551 mm2
SMS	132	114	108	108	80	80	56	56	24	15
TPC	66	57	54	54	40	40	28	28	24	15
Cœurs CUDA FP32 par SM	128	128	64	64	64	64	64	64	128	192
Cœurs CUDA FP64 / SM	128	128	32	32	32	32	32	32	4	64
Cœurs CUDA FP32	16896	14592	6912	6912	5120	5120	3584	3584	3072	2880
Cœurs CUDA FP64	16896	14592	3456	3456	2560	2560	1792	1792	96	960
Noyaux tenseurs	528	456	432	432	640	640	N / A	N / A	N / A	N / A
Unités de textures	528	456	432	432	320	320	224	224	192	240
Booster l’horloge	À déterminer	À déterminer	1410 MHz	1410 MHz	1601 MHz	1530 MHz	1480 MHz	1329MHz	1114 MHz	875 MHz
TOP (DNN/AI)	2000 TOP 4000 TOP	1600 TOP 3200 TOP	1248 TOP 2496 TOP avec parcimonie	1248 TOP 2496 TOP avec parcimonie	130 TOP	125 TOP	N / A	N / A	N / A	N / A
FP16 Calcul	2000 TFLOP	1600 TFLOP	312 TFLOP 624 TFLOP avec parcimonie	312 TFLOP 624 TFLOP avec parcimonie	32,8 TFLOP	30.4 TFLOP	21.2 TFLOP	18.7 TFLOP	N / A	N / A
Calcul FP32	1000 TFLOP	800 TFLOP	156 TFLOP (norme 19,5 TFLOP)	156 TFLOP (norme 19,5 TFLOP)	16.4 TFLOP	15.7 TFLOP	10.6 TFLOP	10.0 TFLOP	6.8 TFLOP	5.04 TFLOP
Calcul FP64	60 TFLOP	48 TFLOP	19.5 TFLOP (norme 9.7 TFLOP)	19.5 TFLOP (norme 9.7 TFLOP)	8.2 TFLOP	7,80 TFLOP	5.30 TFLOP	4.7 TFLOP	0,2 TFLOP	1,68 TFLOP
Interface mémoire	HBM3 5120 bits	HBM2e 5120 bits	HBM2e 6144 bits	HBM2e 6144 bits	HBM2 4096 bits	HBM2 4096 bits	HBM2 4096 bits	HBM2 4096 bits	GDDR5 384 bits	GDDR5 384 bits
Taille mémoire	Jusqu’à 80 Go HBM3 à 3,0 Gbit/s	Jusqu’à 80 Go HBM2e à 2,0 Gbit/s	Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 1,6 To/s	Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 2,0 To/s	16 Go HBM2 à 1134 Go/s	16 Go HBM2 à 900 Go/s	16 Go HBM2 à 732 Go/s	16 Go HBM2 à 732 Go/s 12 Go HBM2 à 549 Go/s	24 Go GDDR5 à 288 Go/s	12 Go GDDR5 à 288 Go/s
Taille du cache L2	51200 Ko	51200 Ko	40960 Ko	40960 Ko	6144 Ko	6144 Ko	4096 Ko	4096 Ko	3072 Ko	1536 Ko
PDT	700W	350W	400W	250W	250W	300W	300W	250W	250W	235W

Source-123

La Défense nationale remporte un prix pour ses efforts visant à cacher des informations au public

Le gouvernement fédéral enquête sur la perte de la demande d’immigration d’un Québécois pour sa femme cubaine

Le roguelike Prince of Persia du développeur Dead Cells retardé à cause d’Hadès 2

Vengeance Démon quotidien vol. 31-Vritra

Le GPU NVIDIA Hopper H100 illustré dans toute sa splendeur : le GPU 4 nm le plus rapide au monde et le premier au monde avec mémoire HBM3

GPU NVIDIA Hopper H100 : le premier avec la technologie 4nm et HBM3 obtient des images haute résolution

Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :