NVIDIA pourrait avoir du mal à déposer la marque pour ses GPU Hopper de nouvelle génération, mais cela n’empêche pas son développement du dé phare GH100 comme la dernière rumeur de Kopite7kimi affirme que la puce mesurerait environ 1000 mm2.
Le GPU NVIDIA GH100, la puce de centre de données phare de nouvelle génération, mesure environ 1000 mm2
Actuellement, le plus gros GPU en production est le NVIDIA Ampere GA100 qui mesure 826 mm2. Si la rumeur est correcte, alors le Hopper GH100 de NVIDIA deviendra la plus grande conception de GPU jamais conçue, mesurant environ 1000 mm2, dépassant facilement les GPU monstres actuels d’au moins 100 mm2.
Mais ce n’est pas tout, la taille de la matrice en question est pour une matrice GPU GH100 singulière et nous avons entendu des rumeurs selon lesquelles Hopper serait la première conception de puce MCM de NVIDIA, donc considérant que nous obtenons au moins deux GPU Hopper GH100 sur le même interposeur, les matrices seules mesurerait 2000mm2. Tout cela signifie que l’interposeur serait beaucoup plus grand que ce que nous avons vu jusqu’à présent, étant donné qu’il contiendra plusieurs piles HBM2e et d’autres connectivités à bord. Cependant, Greymon55 a déclaré que Hopper continuera d’être une conception monolithique, il reste donc à voir quelle serait la conception finale de la puce.
Le GH100 a une énorme matrice unique d’un peu moins de 1000 mm².
– kopite7kimi (@kopite7kimi) 29 janvier 2022
Le GH100 n’a pas de MCM, il est toujours monolithique.
– Greymon55 (@greymon55) 29 janvier 2022
GPU NVIDIA Hopper – Tout ce que nous savons jusqu’à présent
D’après les informations précédentes, nous savons que l’accélérateur H100 de NVIDIA serait basé sur une solution MCM et utiliserait le nœud de processus 5 nm de TSMC. Hopper est censé avoir deux modules GPU de nouvelle génération, nous envisageons donc 288 unités SM au total.
Nous ne pouvons pas encore donner un aperçu du nombre de cœurs car nous ne connaissons pas le nombre de cœurs présents dans chaque SM, mais si cela doit s’en tenir à 64 cœurs par SM, nous obtenons 18 432 cœurs, soit 2,25 fois plus que le configuration complète du processeur graphique GA100. NVIDIA pourrait également exploiter davantage de cœurs FP64, FP16 et Tensor dans son GPU Hopper, ce qui augmenterait énormément les performances. Et ce sera une nécessité pour rivaliser avec le Ponte Vecchio d’Intel, qui devrait être équipé d’un FP64 1:1.
Il est probable que la configuration finale viendra avec 134 des 144 unités SM activées sur chaque module GPU et, à ce titre, nous envisageons probablement un seul dé GH100 en action. Mais il est peu probable que NVIDIA atteigne les mêmes flops FP32 ou FP64 que les MI200 sans utiliser GPU Sparsity.
Mais NVIDIA peut probablement avoir une arme secrète dans ses manches et ce serait l’implémentation GPU de Hopper basée sur la COPA. NVIDIA parle de deux GPU COPA spécialisés par domaine basés sur une architecture de nouvelle génération, un pour le segment HPC et un pour le segment DL. La variante HPC présente une approche très standard qui consiste en une conception de GPU MCM et les chiplets HBM/MC+HBM (IO) respectifs, mais la variante DL est celle où les choses commencent à devenir intéressantes. La variante DL abrite un énorme cache sur une matrice entièrement séparée qui est interconnectée avec les modules GPU.
Architecture | Capacité LLC | DRAM BW | Capacité DRAM |
---|---|---|---|
Configuration | (Mo) | (To/s) | (Go) |
GPU-N | 60 | 2.7 | 100 |
COPA-GPU-1 | 960 | 2.7 | 100 |
COPA-GPU-2 | 960 | 4.5 | 167 |
COPA-GPU-3 | 1 920 | 2.7 | 100 |
COPA-GPU-4 | 1 920 | 4.5 | 167 |
COPA-GPU-5 | 1 920 | 6.3 | 233 |
Parfait L2 | infini | infini | infini |
Différentes variantes ont été décrites avec jusqu’à 960/1920 Mo de LLC (Last-Level-Cache), des capacités de DRAM HBM2e jusqu’à 233 Go et une bande passante jusqu’à 6,3 To/s. Tout cela est théorique, mais étant donné que NVIDIA en a discuté maintenant, nous pourrions probablement voir une variante Hopper avec un tel design lors du dévoilement complet au GTC 2022.
NVIDIA Hopper GH100 ‘Spécifications préliminaires’ :
Carte graphique NVIDIA Tesla | Tesla K40 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla P100 (PCI-Express) |
Tesla P100 (SXM2) | Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (SMX4 ?) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Képler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GA100 (Ampère) | GH100 (Trémie) |
Nœud de processus | 28nm | 28nm | 16nm | 16nm | 12nm | 7nm | 5nm |
Transistors | 7,1 milliards | 8 milliards | 15,3 milliards | 15,3 milliards | 21,1 milliards | 54,2 milliards | À déterminer |
Taille de matrice GPU | 551 mm2 | 601mm2 | 610 mm2 | 610 mm2 | 815mm2 | 826mm2 | ~1000mm2 ? |
SMS | 15 | 24 | 56 | 56 | 80 | 108 | 134 (par module) |
TPC | 15 | 24 | 28 | 28 | 40 | 54 | À déterminer |
Cœurs CUDA FP32 par SM | 192 | 128 | 64 | 64 | 64 | 64 | 64 ? |
Cœurs CUDA FP64 / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32 ? |
Cœurs CUDA FP32 | 2880 | 3072 | 3584 | 3584 | 5120 | 6912 | 8576 (par module) 17152 (complet) |
Cœurs CUDA FP64 | 960 | 96 | 1792 | 1792 | 2560 | 3456 | 4288 (par module) ? 8576 (Complet) ? |
Noyaux tenseurs | N / A | N / A | N / A | N / A | 640 | 432 | À déterminer |
Unités de textures | 240 | 192 | 224 | 224 | 320 | 432 | À déterminer |
Booster l’horloge | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1410 MHz | ~1400 MHz |
TOP (DNN/AI) | N / A | N / A | N / A | N / A | 125 TOP | 1248 TOP 2496 TOP avec parcimonie |
À déterminer |
FP16 Calcul | N / A | N / A | 18.7 TFLOP | 21.2 TFLOP | 30.4 TFLOP | 312 TFLOP 624 TFLOP avec parcimonie |
779 TFLOP (par module) ? 1558 TFLOP avec parcimonie (par module) ? |
Calcul FP32 | 5.04 TFLOP | 6.8 TFLOP | 10.0 TFLOP | 10.6 TFLOP | 15.7 TFLOP | 19.4 TFLOP 156 TFLOP avec parcimonie |
24.2 TFLOP (par module) ? 193.6 TFLOP avec parcimonie ? |
Calcul FP64 | 1,68 TFLOP | 0,2 TFLOP | 4.7 TFLOP | 5.30 TFLOP | 7,80 TFLOP | 19.5 TFLOP (norme 9.7 TFLOP) |
24.2 TFLOP (par module) ? (norme 12.1 TFLOP) ? |
Interface mémoire | GDDR5 384 bits | GDDR5 384 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2e 6144 bits | HBM2e 6144 bits |
Taille mémoire | 12 Go GDDR5 à 288 Go/s | 24 Go GDDR5 à 288 Go/s | 16 Go HBM2 à 732 Go/s 12 Go HBM2 à 549 Go/s |
16 Go HBM2 à 732 Go/s | 16 Go HBM2 à 900 Go/s | Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 1,6 To/s |
Jusqu’à 100 Go HBM2e à 3,5 Gbit/s |
Taille du cache L2 | 1536 Ko | 3072 Ko | 4096 Ko | 4096 Ko | 6144 Ko | 40960 Ko | 81920 Ko |
PDT | 235W | 250W | 250W | 300W | 300W | 400W | ~450-500W |