Les GPU de calcul modernes sont conçus pour offrir des performances incroyables à tout prix, de sorte que leur consommation d’énergie et leurs besoins en refroidissement sont assez énormes. Le dernier GPU de calcul H100 de Nvidia basé sur l’architecture Hopper peut consommer jusqu’à 700 W dans le but de fournir jusqu’à 60 FP64 Tensor TFLOPS, il était donc clair dès le départ que nous avions affaire à une conception de module SXM5 plutôt monstrueuse. Pourtant, Nvidia ne l’a jamais démontré de près.
Nos confrères de ServeTheHome, qui ont eu la chance de visiter l’un des bureaux de Nvidia et de voir eux-mêmes un module H100 SXM5, ont publié jeudi une photo du GPU de calcul. Ces cartes SXM5 sont conçues pour les propres systèmes de calcul haute performance (HPC) DGX H100 et DGX SuperPod de Nvidia ainsi que pour les machines conçues par des tiers. Ces modules ne seront pas disponibles séparément dans le commerce de détail, les voir est donc une opportunité rare.
Le module H100 SXM5 de Nvidia embarque un GPU de calcul GH100 entièrement activé avec 80 milliards de transistors et contenant 8448/16896 cœurs FP64/FP32 ainsi que 538 cœurs Tensor (voir les détails sur les spécifications et les performances du H100 dans les tableaux ci-dessous). Le GPU GH100 est livré avec 96 Go de mémoire HBM3, bien qu’en raison de la prise en charge ECC et de certains autres facteurs, les utilisateurs puissent accéder à 80 Go de mémoire HBM3 compatible ECC connectée à l’aide d’un bus 5120 bits. Le GPU de calcul GH100 particulier illustré est la révision A1 marquée comme U8A603.L06 et emballée la 53e semaine de 2021 (c’est-à-dire du 28 décembre au 31 décembre).
Le GH100 de Nvidia mesure 814 mm ^ 2, ce qui en fait l’une des plus grandes puces jamais fabriquées. En fait, la taille des matrices des GPU de calcul récents de Nvidia était principalement limitée par la taille du réticule des outils de production de semi-conducteurs modernes, qui est d’environ 850 mm ^ 2. Étant donné que la puce fabriquée à l’aide d’une technologie de processus TSMC N4 personnalisée (qui appartient à la famille de nœuds N5) se compose de 80 milliards de transistors fonctionnant à environ 1,40 ~ 1,50 GHz, le GPU est extrêmement gourmand en énergie. Nvidia évalue sa puissance de conception thermique à 700 W (mais ce nombre peut changer), il nécessite donc un module de régulation de tension (VRM) extrêmement sophistiqué qui peut fournir suffisamment de puissance pour alimenter la bête.
En effet, le module H100 SXM5 est livré avec un VRM qui possède 29 inductances à fort courant équipées chacune de deux étages de puissance ainsi que trois inductances avec un étage de puissance. Les inducteurs peuvent survivre à des températures élevées pendant de longues périodes et ils sont livrés dans des coques métalliques pour faciliter le refroidissement du VRM.
Les dimensions du module SXM5 sont inconnues, mais elles ne diffèrent guère des modules Nvidia de génération précédente pour les GPU de calcul. Pendant ce temps, Nvidia a modifié la disposition des connecteurs pour SXM5 (vérifiez-le sur ServeTheHome), probablement en raison d’une consommation d’énergie plus élevée et de débits de données PCIe Gen5 et NVLink plus rapides pris en charge par son GH100.
Nvidia commencera les expéditions commerciales de ses GPU de calcul Hopper H100 parfois au cours du second semestre de cette année et c’est à ce moment qu’elle annonce les spécifications finales de ces produits et leur TDP final.