Le Ryzen 9 7950X3D d’AMD est le processeur de jeu le plus rapide de la planète en raison de la décision d’AMD d’apporter sa technologie perturbatrice d’empilage de puces 3D au Zen 4, mais curieusement, la société n’a partagé aucun détail sur son nouveau V-Cache 3D de deuxième génération. dans ses documents d’information Ryzen 7000X3D. Nous avons initialement trouvé quelques détails lors d’une récente conférence technique que nous avons incluse dans notre examen, et maintenant AMD a enfin répondu à quelques-unes de nos questions de suivi et partagé de nouveaux détails importants, notamment que le chiplet reste sur le processus 7 nm et a maintenant un bande passante maximale jusqu’à 2,5 To/s, alors que le V-Cache 3D de première génération culminait à 2 To/s (parmi beaucoup d’autres nouvelles informations). Nous avons également de nouvelles photos et schémas de la nouvelle matrice d’E/S 6 nm qu’AMD utilise pour ses processeurs Ryzen 7000.
AMD est passé à la deuxième génération de son V-Cache 3D, et Intel n’a pas de technologie concurrente. Cela assure à AMD une victoire dans les meilleurs processeurs pour les jeux et certaines applications de centre de données. Dans l’ensemble, la technologie 3D V-Cache de deuxième génération d’AMD est un pas en avant impressionnant par rapport à la première génération, car elle permet à l’entreprise de tirer parti du nœud de processus 7 nm désormais mature et moins coûteux pour augmenter les performances de son calcul 5 nm de pointe. mourir. La nouvelle conception représente AMD prenant le principal avantage des méthodologies de conception basées sur les puces – en utilisant un nœud de processus plus ancien et moins coûteux en tandem avec une nouvelle technologie de processus coûteuse – dans la troisième dimension. Passons maintenant aux petits détails.
Tout d’abord, un bref rappel de haut niveau. Comme vous pouvez le voir ci-dessus, la technologie 3D V-Cache d’AMD empile une puce SRAM L3 supplémentaire directement au centre de la puce de calcul (CCD) pour l’isoler des cœurs générateurs de chaleur. Ce cache augmente la capacité à 96 Mo pour le chiplet équipé de 3D V-Cache, améliorant ainsi les performances des applications sensibles à la latence, comme les jeux. Nous avons couvert les détails approfondis de la première génération de cette technologie ici.
Nous avons reçu de nouvelles informations sur l’implémentation de deuxième génération à la fois directement d’AMD et de la Conférence internationale sur les circuits à semi-conducteurs 2023 (ISSCC), où AMD a fait une présentation sur l’architecture Zen 4.
Le V-Cache 3D de la génération précédente d’AMD utilisait une puce SRAM L3 de 7 nm empilée sur un capteur CCD Zen 3 de 7 nm. AMD a conservé le processus de 7 nm pour le nouveau chiplet SRAM L3 (appelé « L3D »), mais l’empile maintenant sur un CCD Zen 4 plus petit de 5 nm (voir le tableau ci-dessous). Cela crée cependant une inadéquation de taille, qui a nécessité quelques modifications.
Ligne 0 – Cellule 0 | Die V-Cache 3D 2e génération 7 nm | Die V-Cache 3D 7 nm de première génération | Matrice complexe Zen 4 cœurs 5 nm (CCD) | Matrice complexe Zen 3 Core 7nm (CCD) |
Taille | 36mm^2 | 41mm^2 | 66,3 mm^2 | 80,7 mm^2 |
Nombre de transistors | ~4,7 milliards | 4,7 milliards | 6,57 milliards | 4,15 milliards |
MTr/mm^2 (densité de transistor) | ~130,6 millions | ~114,6 millions | ~99 millions | ~51,4 millions |
Tout d’abord, AMD a réduit la taille de la matrice SRAM de 7 nm, elle mesure donc désormais 36 mm2 par rapport à la 41mm2 de la génération précédente. Cependant, le nombre total de transistors reste le même à ~ 4,7 milliards, de sorte que la nouvelle puce est nettement plus dense que la puce de première génération.
Comme nous l’avons vu avec le chiplet SRAM de première génération, le chiplet SRAM L3 7 nm a une densité de transistor incroyable – nous examinons près de 3 fois la densité du chiplet de calcul 7 nm de première génération, et étonnamment, le chiplet SRAM 7 nm est nettement plus dense que la puce de calcul 5nm. En effet, comme auparavant, le chiplet utilise une version optimisée en densité de 7 nm spécialisée pour la SRAM. Il manque également les circuits de contrôle typiques trouvés dans le cache – ces circuits résident sur la matrice de base, ce qui aide également à réduire les frais généraux de latence. En revanche, la matrice de 5 nm comprend plusieurs types de transistors ainsi que des chemins de données et d’autres types de structures non présents dans la puce L3 SRAM simplifiée.
Comme auparavant, la latence supplémentaire du cache SRAM L3 supplémentaire pèse 4 horloges, mais la bande passante entre le chiplet L3 et la puce de base est passée à 2,5 To/s, une amélioration de 25 % par rapport au pic précédent de 2 To/s.
Le chiplet SRAM L3 empilé est connecté à la matrice de base avec deux types de vias traversants en silicium (TSV – une connexion électrique verticale). Les Power TSV transportent l’alimentation entre les chiplets, tandis que les Signal TSV transportent les données entre les unités.
Dans la conception de première génération, les deux types de TSV résidaient dans la région L3 du chiplet de base. Cependant, le cache L3 sur la matrice de base est maintenant plus petit en raison de la densité accrue du processus de 5 nm, et même si le chiplet SRAM L3 de 7 nm est plus petit, il chevauche maintenant le cache L2 (la génération précédente ne chevauchait que le L3 sur la base mourir). En tant que tel, AMD a dû modifier les connexions TSV à la fois dans la matrice de base et dans le chiplet L3 SRAM.
AMD a dû étendre les TSV de puissance de L3 à la région L2 en raison de la taille plus petite du cache L3 de 5 nm sur la puce de base (résultat de l’augmentation de la densité et d’autres facteurs). Pour la matrice de base, AMD a atteint une mise à l’échelle de la zone effective de 0,68x sur le cache L3, les chemins de données et la logique de contrôle par rapport à l’ancien chiplet de base de 7 nm, il y a donc physiquement moins de place pour les TSV dans le cache L3.
Les signaux TSV restent à l’intérieur de la zone de cache L3 sur la matrice de base, mais AMD a réduit la zone TSV dans le cache L3 de 50 % en appliquant les enseignements de la conception de première génération ainsi que des améliorations DTCO pour réduire les circuits de surcharge dans la nouvelle conception d’interface.
La technologie d’empilement de puces 3D d’AMD est basée sur la technologie SoIC de TSMC. Le SoIC de TSMC est sans bosse, ce qui signifie qu’il n’utilise pas de microbumps ou de soudure pour connecter les deux matrices. Vous pouvez en savoir plus sur le processus de collage et de fabrication hybride ici. AMD nous dit qu’il a utilisé le même processus de liaison fondamental associé à des améliorations continues du processus et du DTCO, mais le pas TSV minimum n’a pas changé.
Mesures matérielles de Tom | Pic à filetage unique | Maintien multi-thread | Tension (crête) | nT Puissance |
CCD 0 (cache virtuel 3D) | 5,25 GHz | 4,85 GHz | 1.152 | 86W |
CCD 1 (Pas de cache supplémentaire) | 5,75 GHz | 5,3 GHz | 1.384 | 140W |
Le chiplet SRAM L3 reste également sur le même domaine d’alimentation que les cœurs du processeur, de sorte qu’ils ne peuvent pas être ajustés indépendamment. Cela contribue à la fréquence inférieure sur le chiplet équipé d’un cache car la tension ne peut pas dépasser ~ 1,15 V. Vous pouvez voir nos tests approfondis des deux différents types de puces ici.
Ligne 0 – Cellule 0 | Matrice E/S 6nm (IOD) – Ryzen 7000 | Matrice E/S 12 nm (IOD) – Ryzen 5000 | Matrice E/S 6nm (IOD) – EPYC |
Taille | 117,8 mm^2 | 125mm^2 | 386,88 mm^2 |
Nombre de transistors | 3,37 milliards | 2,09 milliards | 11 milliards |
MTr/mm^2 (densité de transistor) | ~28,6 millions | ~16,7 millions | ~29,8 millions |
La présentation ISSCC d’AMD comprenait également de nombreux nouveaux détails sur les matrices d’E/S (IOD) 6 nm utilisées dans les processeurs Ryzen 7000 et EPYC Genoa. Dans l’album ci-dessus, vous pouvez voir les images agrandies et un cliché annoté du détective de la puce @Locuza_. Vous pouvez également développer le tweet ci-dessous pour lire l’excellente analyse de Locuza sur l’IOD Ryzen 7000.
Nous avons mis les spécifications dans le tableau pour une comparaison facile, et comme vous pouvez le voir, la matrice d’E/S EPYC Genoa est tout simplement énorme par rapport à la variante Ryzen 7000 – c’est parce qu’AMD peut câbler jusqu’à 12 puces de calcul (CCD) à l’I /O Die pour ses processeurs EPYC Genoa.
En revanche, les puces grand public sont limitées à deux chiplets, une limitation immuable car, comme vous pouvez le voir dans le diagramme de Locuza, le Ryzen 7000 I/O Die n’a que deux liens Global Memory Interconnect 2 (GMI2) qui connectent les chiplets de calcul au IOD. C’est une déception – les modèles Genoa à faible nombre de cœurs avec quatre CCD peuvent avoir des liaisons double GMI3 (mode large), une nouvelle capacité qui peut offrir des avantages dans certaines tâches gourmandes en mémoire. Cela aurait été intéressant d’ajouter aux puces grand public.
Nous avons également ajouté le jeu complet ISSCC 2022 ci-dessous pour votre lecture – il comprend quelques autres informations intéressantes.
Matrice d’E/S client Zen 4 Raphael 6 nm :- 128b DDR5 PHY + 32b pour ECC (8b par canal 32b)- 2x ports GMI3, 3x CCD ne sont pas possibles. :p- 28x PCIe 5, Zen1/2/3 cIOD avait 32x voies PCIe. AMD a donc réduit le gaspillage pour le marché client. – Vraiment juste un RDNA2 WGP, 128 Shader « Cores » https://t.co/bkqdVvhgrn pic.twitter.com/erYxTw1p8h4 mars 2023