Lorsque Nvidia a présenté sa famille d’unités de traitement graphique Ada Lovelace plus tôt cette semaine, elle s’est principalement concentrée sur son GPU AD102 haut de gamme et sa carte graphique phare GeForce RTX 4090. Il n’a pas dévoilé trop de détails sur ses puces graphiques AD103 et AD104. Heureusement, Nvidia a mis en ligne aujourd’hui son livre blanc Ada Lovelace qui contient de nombreuses données sur les nouveaux GPU et comble de nombreuses lacunes. Nous avons mis à jour les GPU de la série RTX 40 tout ce que nous savons hub avec les nouveaux détails, mais voici l’aperçu des informations nouvelles et intéressantes.
Gros GPU pour gros jeux
Nous savons déjà que l’AD102 haut de gamme de Nvidia est un GPU de 608 mm ^ 2 contenant 76,3 milliards de transistors, 18 432 cœurs CUDA et 96 Mo de cache L2. Nous savons également que l’AD103 est un processeur graphique de 378,6 mm^2 avec 45,9 milliards de transistors, 10 240 cœurs CUDA et 64 Mo de cache L2. Quant à l’AD104, il a une taille de matrice de 294,5 mm ^ 2, 35,8 milliards de transistors, 7680 cœurs CUDA et 48 Mo de L2.
GPU/carte graphique | AD102 complet | RTX 4090 | RTX 4080 16 Go | RTX 4080 12 Go | RTX 3090Ti |
---|---|---|---|---|---|
Architecture | AD102 | AD102 | AD103 | AD104 | GA102 |
Technologie de processus | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | Samsung 8LPP |
Transistors (Milliards) | 76,3 | 76,3 | 45,9 | 35,8 | 28.3 |
Taille de matrice (mm^2) | 608 | 608 | 378,6 | 294,5 | 628.4 |
Multiprocesseurs de diffusion en continu | 144 | 128 | 76 | 60 | 84 |
Cœurs GPU (Shaders) | 18432 | 16384 | 9728 | 7680 | 10752 |
Noyaux tenseurs | 576 | 512 | 320 | 240 | 336 |
Cœurs de traçage de rayons | 144 | 144 | 80 | 60 | 84 |
TMU | 512 | 512 | 304 ? | 240 | 336 |
POR | 192 | 192 | 112 | 80 | 112 |
Cache L2 (Mo) | 96 | 96 | 64 | 48 | 6 |
Booster l’horloge (MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32 (boost) | ? | 82,6 | 48,7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/A) |
Traçage de rayons TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Interface mémoire (bit) | 384 | 384 | 256 | 192 | 384 |
Vitesse de la mémoire (GT/s) | ? | 21 | 22.4 | 21 | 21 |
Bande passante (GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP (watts) | ? | 450 | 320 | 285 | 450 |
Date de lancement | ? | 12 octobre 2022 | novembre 2022 ? | novembre 2022 ? | mars 2022 |
Prix de lancement | ? | 1 599 $ | 1 199 $ | 899 $ | 1 999 $ |
L’une des choses intéressantes que Nvidia raconte dans son livre blanc est que les GPU Ada Lovelace utilisent des transistors à haute vitesse dans les chemins critiques pour augmenter les vitesses d’horloge maximales. En conséquence, son GPU AD102 entièrement activé avec 18 432 cœurs CUDA est « capable de fonctionner à des horloges supérieures à 2,5 GHz, tout en conservant le même TGP de 450 W ». Gardant cela à l’esprit, nous ne sommes pas surpris que la société parle d’horloges à 3,0 GHz pour la GeForce RTX 4090 (avec 16 384 cœurs CUDA) atteintes dans ses laboratoires. À 3,0 GHz, la GeForce RTX 4090 sera absolument la tête d’affiche de notre liste des meilleures cartes graphiques du marché.
En plus des horloges élevées, le GPU Ada Lovelace de Nvidia dispose également d’énormes caches L2 qui améliorent les performances dans les charges de travail intensives en calcul (par exemple, le traçage de rayons, le traçage de chemin, les simulations, etc.) et réduisent les besoins en bande passante mémoire. Essentiellement, les GPU Ada de Nvidia s’inspirent ici du livre de RDNA 2 Infinity Cache, bien que nous pensons que les objectifs généraux de la nouvelle architecture ont été définis bien avant le lancement des produits de la série Radeon RX 6000 d’AMD en 2020.
En parlant de charges de travail comme les simulations, il faut noter que dans le monde des supercalculateurs, elles sont effectuées avec des nombres au format à virgule flottante double précision (FP64) pour améliorer la précision des résultats. Le FP64 est plus coûteux que le FP32 tant en termes de performances qu’en termes de complexité matérielle. C’est pourquoi l’infographie utilise les formats FP32 et de nombreuses simulations d’actifs non critiques sont également réalisées avec la précision FP32. Pendant ce temps, le GPU AD102 ne comporte que 288 cœurs FP64 (deux par multiprocesseurs de streaming) inclus pour garantir que tous les programmes avec le code FP64 fonctionnent correctement, y compris le code FP64 Tensor Core.
Pourtant, le taux FP64 de l’AD102 est 1/64e du taux TFLOP des opérations FP32 (ce qui est conforme à l’architecture Ampere). Nvidia ne décrit pas ses cœurs FP64 dans les schémas de ses modules multiprocesseurs de streaming (SM) et ne divulgue pas le nombre de ces cœurs dans les GPU AD103 et AD104. Le faible taux de FP64 des processeurs graphiques Ada souligne que ces pièces se destinent avant tout au gaming.
Plus de transistors = plus de performances
La complexité et la taille des matrices des processeurs graphiques Ada Lovelace de Nvidia par rapport aux GPU Ampere de la société ne devraient pas surprendre. Les nouveaux GPU Ada sont fabriqués à l’aide des technologies de fabrication 4N (classe 5 nm) de TSMC, tandis qu’Ampère a été fabriqué sur le processus 8LPP de Samsung Foundry (un nœud de classe 10 nm avec un rétrécissement optique de 10 %). Cette complexité supplémentaire (nombre de transistors) est ce qui permet des gains de performances impressionnants dans des domaines tels que le lancer de rayons et les gains de qualité avec DLSS 3.0.
GPU/carte graphique | AD102 | RTX 4090 | RTX 4080 16 Go | RTX 4080 12 Go | RTX 3090Ti |
---|---|---|---|---|---|
GPU | AD102 | AD102 | AD103 | AD104 | GA102 |
TFLOPS FP32 (boost) | ? | 82,6 | 48,7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/A) |
Traçage de rayons TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Une autre chose à noter est que le GPU AD102 de Nvidia a une densité de transistors plus élevée que ses frères et sœurs inférieurs. D’une part, cette densité de transistors ajoutée de 3,6 % lui permet d’intégrer beaucoup plus d’unités d’exécution dans l’AD102 par rapport à ses frères plus petits. Mais d’un autre côté, la densité de transistors relâchés d’AD103 et d’AD104 permet dans de nombreux cas de meilleurs rendements (en supposant que la densité de défauts du nœud n’est pas élevée en général) et des horloges plus élevées.
Il est difficile de faire des prédictions sur le potentiel de fréquence de AD103 et AD104 sans accès au matériel réel et/ou sans connaissance de leurs taux de rendement réels. Cependant, si l’AD102 peut fonctionner à 2,50 GHz ~ 3,0 GHz, il est raisonnable de s’attendre à ce que l’AD103 et l’AD104 aient un potentiel encore plus élevé. Nous savons également que le RTX 4080 12 Go utilise une puce AD104 entièrement activée fonctionnant à 2610 MHz, tandis que le RTX 4080 16 Go utilise 95% d’une puce AD103 (76 sur 80 SM) fonctionnant à 2505 MHz, et le RTX 4090 n’en utilise que 89% ( 128 des 144 SM) fonctionnant à 2510 MHz – également avec 25% du cache L2 désactivé.
Un nombre extrême d’unités d’exécution, rendu possible par une grande complexité, couplé à des horloges élevées devrait offrir des gains de performances remarquables. La GeForce RTX 4090 de Nvidia a un taux de calcul FP32 théorique de pointe plus de deux fois supérieur (~ 82,6 TFLOPS) par rapport à la GeForce RTX 3090 Ti (~ 40 TFLOPS).
Pendant ce temps, la gamme actuelle de GPU Ada de Nvidia pour les joueurs exigeants montre que la société est de retour sur la bonne voie avec son approche à trois puces du marché des jeux haut de gamme. Normalement, Nvidia publie son GPU de jeu phare, le suit avec une puce qui a environ 66% ~ 75% des ressources du vaisseau amiral (par exemple, les cœurs CUDA), puis dévoile un processeur graphique qui a environ 50% des unités du vaisseau amiral. Avec la famille Ampere, cette stratégie a été quelque peu ajustée car la puce GA103 de Nvidia a été principalement conçue pour les ordinateurs portables et a à peine atteint les ordinateurs de bureau (il était également tard pour la fête), mais avec la génération Ada, Nvidia est de retour à son approche habituelle avec trois jetons.
Plus de SKU entrants
Un point intéressant à retenir est la disparité entre les configurations maximales offertes par le GPU AD102 et la carte graphique GeForce RTX 4090. L’AD102 contient 18 432 cœurs CUDA, tandis que la GeForce RTX 4090 est livrée avec 16 384 cœurs CUDA activés. Une telle approche donne à Nvidia une flexibilité supplémentaire en ce qui concerne les rendements et l’introduction de nouvelles cartes graphiques à l’avenir, il y a donc beaucoup de place pour une génération RTX 4090 Ti, RTX 4080 Ti et RTX 5500/5000 Ada pour les marchés ProViz, etc.
Pendant ce temps, les GeForce RTX 4080 16 Go et RTX 4080 12 Go utilisent respectivement des GPU AD103 presque complets et AD104 à part entière. Nous ne savons pas ce que l’avenir nous réserve, mais nous prévoyons que nous verrons éventuellement des versions réduites des GPU AD103 et AD104. Nous pouvons spéculer sur les GeForce RTX 4070 Ti et/ou RTX 4070 basées sur les bacs de réduction de la puce AD104, ainsi que sur le potentiel de solutions graphiques ultra haut de gamme pour les ordinateurs portables alimentés par le processeur graphique AD103, mais nous ne pouvons que devinez les spécifications de ces pièces.
Quelques idées
L’architecture Ada Lovelace de Nvidia est à la fois un saut qualitatif et quantitatif par rapport à l’architecture Ampere. Nvidia a non seulement sérieusement amélioré les performances de son lancer de rayons, de ses cœurs tenseurs et de certaines autres unités au niveau architectural, mais il a également augmenté leur nombre et augmenté leurs horloges. Une amélioration majeure ici est l’augmentation massive des caches L2 des GPU Ada par rapport aux GPU Ampère.
Dans une large mesure, ces sauts ont été rendus possibles par la technologie de processus 4N optimisée pour le GPU Nvidia de TSMC. De plus, la société a également utilisé des transistors à haute vitesse pour augmenter les fréquences de ses nouveaux processeurs graphiques, ce qui a fourni des gains de performances supplémentaires.
Mais un nœud de production de pointe et les grandes tailles de puces des nouveaux GPU de Nvidia rendent également les pièces beaucoup plus chères à construire, c’est pourquoi les prix des cartes graphiques GeForce RTX 4080 et 4090 ont des prix considérablement plus élevés que leurs prédécesseurs directs.
Jusqu’à présent, Nvidia n’a introduit que cinq produits basés sur Ada Lovelace : les cartes graphiques GeForce RTX 4080 12 Go, RTX 4080 16 Go et RTX 4090 pour les ordinateurs de bureau, aux côtés de la génération RTX 6000 Ada pour les stations de travail/centres de données et les cartes L40 (Lovelace 40) pour les hautes performances. postes de travail finaux et environnements de postes de travail virtualisés.
Étant donné que la société peut proposer des versions AD102 complètes et réduites des GPU AD102, AD103 et AD104, nous pouvons envisager un grand nombre de nouvelles cartes GeForce RTX série 40 pour les machines clientes et les solutions de la série Ada RTX pour les centres de données. Pendant ce temps, Nvidia prépare probablement des GPU plus petits (AD106, AD107), il semble donc que la famille de produits Ada Lovelace sera au moins aussi large que la gamme Ampere.