L’incontournable puce IA H100 de Nvidia en a fait une entreprise multimilliardaire, qui vaut peut-être plus qu’Alphabet et Amazon, et ses concurrents se battent pour rattraper leur retard. Mais peut-être que Nvidia est sur le point d’étendre son avance – avec le nouveau GPU Blackwell B200 et la « superpuce » GB200.
Nvidia affirme que le nouveau GPU B200 en offre jusqu’à 20 pétaflops de puissance FP4 à partir de ses 208 milliards de transistors et qu’un GB200 qui combine deux de ces GPU avec un seul processeur Grace peut offrir des performances 30 fois supérieures pour les charges de travail d’inférence LLM tout en étant potentiellement beaucoup plus efficace. Il « réduit les coûts et la consommation d’énergie jusqu’à 25 fois » par rapport à un H100, affirme Nvidia.
La formation d’un modèle de 1 800 milliards de paramètres aurait auparavant nécessité 8 000 GPU Hopper et 15 mégawatts de puissance, affirme Nvidia. Aujourd’hui, le PDG de Nvidia affirme que 2 000 GPU Blackwell peuvent le faire en ne consommant que quatre mégawatts.
Sur un benchmark GPT-3 LLM avec 175 milliards de paramètres, Nvidia affirme que le GB200 a des performances un peu plus modestes, sept fois supérieures à celles d’un H100, et Nvidia affirme qu’il offre 4 fois la vitesse d’entraînement.
Nvidia a déclaré aux journalistes que l’une des principales améliorations était un moteur de transformateur de deuxième génération qui double le calcul, la bande passante et la taille du modèle en utilisant quatre bits pour chaque neurone au lieu de huit (d’où les 20 pétaflops du FP4 que j’ai mentionnés plus tôt). Une deuxième différence clé ne se produit que lorsque vous reliez un grand nombre de ces GPU : un commutateur NVLink de nouvelle génération qui permet à 576 GPU de communiquer entre eux, avec 1,8 téraoctets par seconde de bande passante bidirectionnelle.
Cela a obligé Nvidia à construire une toute nouvelle puce de commutation réseau, une avec 50 milliards de transistors et une partie de son propre calcul embarqué : 3,6 téraflops de FP8, explique Nvidia.
Auparavant, selon Nvidia, un cluster de seulement 16 GPU passait 60 % de son temps à communiquer entre eux et seulement 40 % à faire du calcul.
Nvidia compte bien sûr sur les entreprises pour acheter de grandes quantités de ces GPU et les conditionne dans des conceptions plus grandes, comme le GB200 NVL72, qui branche 36 processeurs et 72 GPU dans un seul rack refroidi par liquide pour un total de 720 pétaflops de Performances d’entraînement de l’IA ou 1 440 pétaflops (soit 1,4 exaflops) d’inférence. Il contient près de trois kilomètres de câbles, avec 5 000 câbles individuels.
Chaque plateau du rack contient soit deux puces GB200, soit deux commutateurs NVLink, avec 18 des premières et neuf des secondes par rack. Au total, Nvidia affirme que l’un de ces racks peut prendre en charge un modèle de 27 000 milliards de paramètres. Selon les rumeurs, GPT-4 se situerait autour d’un modèle de 1,7 billion de paramètres.
La société affirme qu’Amazon, Google, Microsoft et Oracle prévoient tous déjà de proposer les racks NVL72 dans leurs offres de services cloud, même s’il n’est pas clair combien ils en achètent.
Et bien sûr, Nvidia est également heureux de proposer aux entreprises le reste de la solution. Voici le DGX Superpod pour DGX GB200, qui combine huit systèmes en un pour un total de 288 processeurs, 576 GPU, 240 To de mémoire et 11,5 exaflops de calcul FP4.
Nvidia affirme que ses systèmes peuvent s’adapter à des dizaines de milliers de superpuces GB200, connectées ensemble avec un réseau à 800 Gbit/s avec son nouveau Quantum-X800 InfiniBand (pour jusqu’à 144 connexions) ou Ethernet Spectrum-X800 (pour jusqu’à 64 connexions).
Nous ne nous attendons pas à entendre parler des nouveaux GPU de jeu aujourd’hui, car cette nouvelle provient de la conférence sur la technologie GPU de Nvidia, qui est généralement presque entièrement axée sur le calcul GPU et l’IA, et non sur les jeux. Mais l’architecture GPU Blackwell il alimentera probablement également une future gamme RTX 50 des cartes graphiques de bureau.