NVIDIA Ada Lovelace ‘GeForce RTX 40’ GPU de jeu détaillé : Doublez les ROP, énorme cache L2 et 50 % plus d’unités FP32 que d’ampères, 4e génération de tenseurs et 3e cœurs RT de génération

Les détails concernant le GPU NVIDIA Ada Lovelace Gaming qui alimentera les cartes graphiques de la série GeForce RTX 40 ont été révélés. Les nouvelles informations proviennent de Kopte7kimi & parle du schéma fonctionnel de l’architecture de nouvelle génération.

Schéma fonctionnel NVIDIA GeForce Ada Lovelace GPU SM détaillé : plus grand et meilleur que jamais pour les joueurs !

L’architecture GPU NVIDIA Ada Lovelace n’est plus un mystère. Nous avons appris les configurations spécifiques qui alimenteront les SKU de la prochaine génération AD10 * pour les cartes graphiques de la série GeForce RTX 40 et nous avons également vu des spécifications divulguées de la gamme. Maintenant, il est temps de parler uniquement de la puce graphique de nouvelle génération elle-même.

NVIDIA GeForce RTX 4090 obtient 24 Go de mémoire GDDR6X à 21 Gbps et 600 W TDP, RTX 4070 obtient 12 Go de mémoire GDDR6 à 18 Gbps et 300 W TDP

Schéma fonctionnel du GPU de jeu NVIDIA AD102 ‘Ada Lovelace’ ‘SM’ (Crédits image: Kopite7kimi):

Schéma fonctionnel du GPU de jeu NVIDIA GA102 ‘Ampere’ ‘SM’ :

En commençant par la configuration du GPU, Kopite7kimi compare le meilleur GPU AD102 à divers autres GPU de l’équipe verte. Ceux-ci incluent les Ampere GA102 et Turing TU102 axés sur le jeu, tandis que les Hopper GH100 et Ampere GA100 axés sur le HPC ont également été ajoutés à la liste. Je ne comparerai l’AD102 qu’à ses prédécesseurs de jeu, car les conceptions axées sur le HPC sont très différentes des offres centrées sur le consommateur.

Mise à jour des prix des GPU NVIDIA et AMD pour mai 2022 : les cartes graphiques GeForce sont désormais 14 % supérieures au PDSF, Radeon à seulement 6 % supérieur au PDSF

Le GPU NVIDIA Ada Lovelace AD102 comportera jusqu’à 12 GPC (Graphics Processing Clusters). Il s’agit d’une augmentation de 70 % par rapport au GA102 qui ne comporte que 7 GPC. Chaque GPU sera composé de 6 TPC et de 2 SM, ce qui correspond à la même configuration que la puce existante. Chaque SM (Streaming Multiprocessor) abritera quatre sous-cœurs, ce qui est également le même que le GPU GA102. Ce qui a changé, c’est la configuration du noyau FP32 et INT32. Chaque sous-cœur comprendra 128 unités FP32, mais les unités combinées FP32 + INT32 iront jusqu’à 192. En effet, les unités FP32 ne partagent pas le même sous-cœur que les unités IN32. Les 128 cœurs FP32 sont séparés des 64 cœurs INT32.

Ainsi, au total, chaque sous-cœur sera composé de 128 unités FP32 plus 64 unités INT32 pour un total de 192 unités. Chaque SM aura un total de 512 unités FP32 plus 256 unités INT32 pour un total de 768 unités. Et comme il y a un total de 24 unités SM (2 par GPC), nous envisageons 12 288 unités FP32 et 6 144 unités INT32 pour un total de 18 432 cœurs. Chaque SM comprendra également deux programmes de wrap (32 threads/CLK) pour 64 wraps par SM. Il s’agit d’une augmentation de 50 % sur les cœurs (FP32 + INT32) et d’une augmentation de 33 % sur les Wraps/Threads par rapport au GPU GA102.

Spécifications « préliminaires » du GPU NVIDIA Ada Lovelace :

Nom du processeur graphique AD102 GA102 TU102 GA100 GH100
GPC 12 (par GPU) 1,7x 2x 1,5x 1,5x
PTC 6 (par GPC) Même Même 0,75x 0,67x
SM 2 (par TPC) Même Même Même Même
Sous-noyau 4 (par SM) Même Même Même Même
FP32 128 (par SM) Même 2x 2x Même
FP32+INT32 192 (par SM) 1,5x 1,5x 1,5x Même
Chaînes 64 (par SM) 1,33x 2x Même Même
Fils 2048 (Par SM) 1,33x 2x Même Même
Cache L1 192 Ko (par SM) 1,5x 2x Même 0,75x
Cache L2 96 Mo (par GPU) 16x 16x 2,4x 1,6x
POR 32 (par GPC) 2x 2x 2x 2x

Passant au cache, c’est un autre segment où NVIDIA a donné un gros coup de pouce par rapport aux GPU Ampère existants. Les GPU Ada Lovelace contiendront 192 Ko de cache L1 par SM, soit une augmentation de 50% par rapport à Ampere. Cela représente un total de 4,5 Mo de cache L1 sur le meilleur GPU AD102. Le cache L2 sera augmenté à 96 Mo comme mentionné dans les fuites. Il s’agit d’une augmentation de 16 fois par rapport au GPU Ampere qui n’héberge que 6 Mo de cache L2. Le cache sera partagé sur le GPU.

Enfin, nous avons les ROP qui sont également augmentés à 32 par GPC, soit une augmentation de 2x par rapport à Ampère. Vous envisagez jusqu’à 384 ROP sur le produit phare de nouvelle génération contre seulement 112 sur le GPU Ampère le plus rapide, le RTX 3090 Ti. Il y aura également les derniers cœurs Tensor de 4e génération et RT (Raytracing) de 3e génération infusés sur les GPU Ada Lovelace, ce qui contribuera à faire passer les performances DLSS et Raytracing au niveau supérieur. Globalement, le GPU Ada Lovelace AD102 offrira :

  • 2x GPC (contre Ampère)
  • 50 % de cœurs en plus (par rapport à l’ampère)
  • 50 % de cache L1 en plus (par rapport à l’ampère)
  • 16x plus de cache L2 (par rapport à l’ampère)
  • Doublez les ROP (par rapport à l’ampère)
  • Tenseur de 4e génération et cœurs RT de 3e génération

Notez que les vitesses d’horloge, qui se situeraient entre 2 et 3 GHz, ne sont pas prises en compte dans l’équation, elles joueront donc également un rôle majeur dans l’amélioration des performances par cœur par rapport à Ampère. Les cartes graphiques de la série NVIDIA GeForce RTX 40 dotées des GPU de jeu Ada Lovelace de nouvelle génération devraient être lancées au cours du second semestre 2022 et utiliseraient le même nœud de processus TSMC 4N que le GPU Hopper H100.

GPU NVIDIA CUDA (RUMEUR) Préliminaire :

GPU TU102 GA102 AD102
UGS phare RTX 2080Ti RTX 3090Ti RTX 4090 ?
Architecture Turing Ampère Ada Lovelace
Processus TSMC 12 nm NFF Samsung 8 nm TSMC 4N ?
Taille de matrice 754mm2 628mm2 ~600mm2
Clusters de traitement graphique (GPC) 6 7 12
Grappes de traitement de texture (TPC) 36 42 72
Multiprocesseurs de streaming (SM) 72 84 144
Cœurs CUDA 4608 10752 18432
Cache L2 6 Mo 6 Mo 96 Mo
TFLOP théoriques 16 TFLOP 40 TFLOP ~90 TFLOP ?
Type de mémoire GDDR6 GDDR6X GDDR6X
Capacité mémoire 11 Go (2080 Ti) 24 Go (3090 Ti) 24 Go (4090 ?)
Vitesse de la mémoire 14 Gbit/s 21 Gbit/s 24 Gbit/s ?
Bande passante mémoire 616 Go/s 1.008 Go/s 1152 Go/s ?
Bus mémoire 384 bits 384 bits 384 bits
Interface PCIe PCIe génération 3.0 PCIe génération 4.0 PCIe génération 4.0
TGP 250W 350W 600 W ?
Libérer Septembre 2018 20 septembre 2H 2022 (à confirmer)

Source-123