AMD a dévoilé aujourd’hui sa gamme de processeurs EPYC 7003 « Milan-X » de troisième génération avec 3D V-Cache en annonçant la disponibilité générale des premières puces au monde à être livrées avec un cache 3D empilé, triplant ainsi la quantité de cache L3 par puce. AMD affirme que les nouvelles puces offrent jusqu’à 88 % d’amélioration des performances dans certaines charges de travail informatiques techniques, avec en tête l’EPYC 7773X à 64 cœurs et 128 threads à 8 800 $ qui est livré avec un cache L3 de 768 Mo autrefois impensable. Cela signifie qu’un serveur à deux sockets peut désormais héberger jusqu’à 1,5 gigaoctets de cache L3. AMD a également révélé quelques nouveaux détails concernant sa technologie 3D V-Cache qui sera également disponible sur ses puces Ryzen 7 5800X3D grand public le mois prochain.
AMD a déjà livré les processeurs Milan-X aux hyperscalers, aux OEM et aux SI. De plus, Microsoft a déjà partagé une pléthore de benchmarks des machines virtuelles Milan-X HBv3 déjà disponibles sur Microsoft Azure, confirmant largement les performances d’AMD.
La nouveauté d’aujourd’hui est la tarification des puces, et ci-dessous, nous pouvons voir que les puces sont accompagnées d’un supplément allant d’une augmentation de 910 $ (11,5 %) pour l’EPYC 7773X à 64 cœurs à un supplément de 2 620 $ (+167 %) pour le 16 cœurs. EPYC 7373X, au moins par rapport aux modèles standard à usage général. Cependant, Milan-X cible le segment des hautes performances, de sorte que les puces Milan de la série « F » à fréquence optimisée sont de meilleurs comparables. Ici, nous voyons que Milan-X est environ 20% plus cher que ces pièces.
Intel n’a pas de modèles Xeon directement comparables, mais cela changera lorsque les puces Sapphire Rapids avec HBM2E arriveront plus tard cette année. Intel affirme que ces puces seront deux fois plus rapides que Milan-X dans certaines charges de travail. Naturellement, nous devrons voir comment cela se passe dans nos laboratoires.
Spécifications et prix de l’AMD EPYC 7003 Milan-X
Processeur | Prix (1KU) | Cœurs/Threads | Horloge de base/boost (GHz) | Cache L3 (L3 + V-Cache 3D) | PDT | cTDP (W) |
EPYC 7773X | 8 800 $ | 64 / 128 | 2.2 / 3.5 | 768 Mo | 280W | 225-280W |
EPYC 7763 | 7 890 $ | 64 / 128 | 2,45 / 3,5 | 256 Mo | 280W | 225-280W |
EPYC 7573X | 5 950 $ | 32 / 64 | 2,8 / 3,6 | 768 Mo | 280W | 225-280W |
EPYC 7543 | 3 761 $ | 32 / 64 | 2,8 / 3,7 | 256 Mo | 225W | 225-240W |
EPYC 7F53 | 4 860 $ | 32 / 64 | 2,95 / 4,0 | 256 Mo | 280W | |
EPYC 7473X | 3 900 $ | 24 / 48 | 2,8 / 3,7 | 768 Mo | 240W | 225-280W |
EPYC 7443 | 2 010 $ | 24 / 48 | 2,85 / 4,0 | 128 Mo | 200W | 165-200W |
EPYC 74F3 | 2 900 $ | 24 / 48 | 3.2 / 4.0 | 256 Mo | 240W | |
EPYC 7373X | 4 185 $ | 16 / 32 | 3,05 / 3,8 | 768 Mo | 240W | 225-280W |
EPYC 7343 | 1 565 $ | 16 / 32 | 3.2 / 3.9 | 128 Mo | 190W | 165-200W |
EPYC 73F3 | 3 521 $ | 16 / 32 | 3.5 / 4.0 | 256 Mo | 240W |
Après la mise à jour du BIOS requise, ces puces tombent dans les serveurs existants avec le socket SP3. La technologie 3D V-Cache peut offrir des améliorations de performances étonnantes dans certaines charges de travail, mais ces gains ne s’appliquent pas à tous les types d’applications. En tant que telle, la sélection limitée de quatre puces d’AMD, désignées par un suffixe « X », représente une sélection de nombres de cœurs soigneusement sélectionnés pour répondre aux exigences particulières de la charge de travail technique.
Les charges de travail qui bénéficient le plus du V-Cache 3D ont tendance à être sensibles à la capacité du cache L3, à manquer de capacité de cache L3 élevée (les données sont trop volumineuses pour le cache) ou à manquer des conflits de cache L3 (les données mises en cache ont une faible associativité). Les charges de travail qui sont les moins susceptibles d’en bénéficier ont tendance à avoir des taux de succès de cache élevés, des manques de cohérence de cache L3 élevés (les données sont fréquemment partagées entre les cœurs) ou n’utilisent les données mises en cache qu’une seule fois (au lieu de plusieurs fois).
Les quatre modèles Milan-X sont équipés de huit puces de calcul à cœur actif (CCD) pour fournir la totalité des 768 Mo de cache L3, même avec les plus petites références. Cela a du sens étant donné que chaque cœur a accès aux 96 Mo complets de cache L3, de sorte que même le modèle 16 cœurs le plus bas de gamme peut pleinement exploiter le cache pour les applications qui ne reposent pas sur une parallélisation lourde.
Nous nous attendons à des compromis de vitesse d’horloge en raison de l’augmentation du cache et des défis thermiques / énergétiques associés à ce type de conception, mais l’impact est assez faible par rapport aux modèles EPYC standard à usage général. Par exemple, l’EPYC 77373X a une vitesse d’horloge de base inférieure de 250 MHz mais a un boost identique de 3,5 GHz par rapport au 7763. Nous constatons une baisse de 100 à 200 MHz de la vitesse de base/boost sur quelques autres SKU, mais ces baisses ne sont pas aussi prononcés que certains le craignaient.
Les ajustements de la fréquence d’horloge sont plus visibles lorsque nous effectuons un zoom arrière pour comparer les pièces de la série F optimisées en fréquence, avec une baisse jusqu’à 500 MHz de la fréquence de base et une réduction de 400 MHz des horloges boostées. Cependant, ces types d’ajustements varient selon le modèle. L’objectif d’AMD ici est de fournir des performances accrues via les caches L3 plus grands, compensant ainsi les ajustements de fréquence et offrant plus de performances globales pour les charges de travail qui en bénéficient. AMD souhaitait également conserver les processeurs dans la même enveloppe TDP que les puces existantes pour assurer la compatibilité avec les systèmes EPYC existants.
AMD a également partagé plus de détails sur sa technologie 3D V-Cache. En guise de rappel rapide, 3D V-Cache exploite une nouvelle technique innovante qui utilise la liaison hybride pour fusionner verticalement 64 Mo supplémentaires de cache SRAM de 7 nm au-dessus du chiplet de calcul Ryzen, triplant ainsi la quantité de cache L3 par puce. Vous pouvez lire les détails détaillés ici et ici.
Plusieurs facteurs ont influencé la motivation d’AMD à utiliser la SRAM empilée en 3D, mais le principal d’entre eux est que la densité de la SRAM n’évolue pas aussi rapidement que la densité logique. En conséquence, les caches consomment désormais un pourcentage plus élevé de surface de matrice qu’auparavant, mais sans fournir d’augmentations de capacité significatives. De plus, l’extension latérale du cache entraînerait une latence plus élevée en raison de la longueur du fil et rongerait la zone de matrice disponible qu’AMD pourrait utiliser pour les cœurs. De plus, l’ajout d’un autre chiplet SRAM dans une disposition 2D n’est pas possible en raison de l’impact sur la latence et la bande passante.
Pour résoudre ces problèmes, AMD empile la SRAM supplémentaire directement au-dessus du centre de la matrice de calcul, permettant à la matrice inférieure de fournir de l’énergie et de communiquer via le bas du chiplet de cache L3 via des connexions TSV. Ces connexions vont verticalement dans la matrice supérieure et se déploient, réduisant ainsi la quantité de données de distance à parcourir, et donc le nombre de cycles nécessaires pour la traversée, par rapport à une extension de cache planaire (2D) standard. Par conséquent, le chiplet L3 fournit le même débit de pointe de 2 To/s que le cache L3 intégré, mais il n’est accompagné que d’une pénalité de latence de quatre cycles.
Le chiplet de cache L3 couvre la même surface que le cache L3 sur le CCD en dessous, mais il a deux fois la capacité. C’est en partie parce que la tranche de cache L3 supplémentaire est quelque peu «stupide» – tous les circuits de contrôle résident sur le CCD de base, ce qui permet de réduire la surcharge de latence. AMD utilise également une version à densité optimisée de 7 nm spécialisée pour la SRAM, et elle est également plus fine que la matrice de base (13 couches métalliques).
L’absence de circuits de contrôle dans le chiplet L3 maximise également la capacité et permet à AMD d’« allumer » sélectivement uniquement les parties du cache auxquelles on accède, réduisant ainsi (et même supprimant) la surcharge de puissance liée au triplement de la capacité du cache L3. De plus, étant donné que le cache plus grand réduit les déplacements vers la mémoire principale en raison des taux de réussite du cache L3 plus élevés, la capacité supplémentaire soulage la pression de la bande passante sur la mémoire principale, réduisant ainsi la latence et améliorant ainsi les performances des applications à partir de plusieurs axes. Moins de déplacements vers la mémoire principale réduit également la consommation d’énergie globale.
Le chiplet de cache L3 consomme beaucoup moins d’énergie par millimètre carré que les cœurs du processeur. Néanmoins, l’empilement vertical augmente la densité de puissance, il est donc préférable de l’isoler des noyaux générateurs de chaleur sur les côtés du chiplet. Cependant, cela laisserait une matrice en saillie au-dessus du CCD, donc AMD utilise une seule cale en silicium qui s’enroule autour de trois côtés du chiplet L3 pour créer une surface uniforme pour le dissipateur de chaleur qui se trouve au sommet du chiplet. Le silicium est un excellent conducteur thermique, de sorte que la cale permet à la chaleur de se transférer des noyaux jusqu’au dissipateur de chaleur.
Les rendus précédents de la conception ont montré deux cales de silicium distinctes et semblaient montrer la matrice de cache L3 s’étendant d’un côté de la matrice à l’autre. Cependant, les matériaux d’AMD pour le lancement de Milan-X montrent clairement une longue cale qui recouvre la matrice de calcul et une partie mince sur le bord de la matrice qui n’est pas couverte par le chiplet de cache L3. Cette mince étendue de la matrice inférieure comprend des fonctions d’E/S que la puce utilise pour communiquer avec la matrice d’E/S.
AMD affirme qu’aucune modification logicielle n’est nécessaire pour tirer parti de la capacité de cache accrue, bien qu’il travaille avec plusieurs partenaires pour créer des progiciels certifiés. Ces packages pourraient également voir d’autres optimisations de performances.
Les modèles Milan-X à 16 et 24 cœurs sont particulièrement bien adaptés aux logiciels d’automatisation de la conception électronique (EDA), qui ont tendance à être légèrement filetés. Cependant, ce logiciel coûteux a également tendance à être concédé sous licence par cœur, de sorte que le fait d’avoir deux modèles potentiels permet aux clients de sélectionner leur configuration optimale. Pendant ce temps, les modèles à 24, 32 et 64 cœurs sont bien adaptés aux tâches filetées plus exigeantes, comme la dynamique des fluides computationnelle (CFD), l’analyse par éléments finis (FEA) et l’analyse structurelle. Encore une fois, la gamme de nombres de cœurs disponibles permet une configuration basée sur des modèles de licence.
AMD a fourni une série de ses propres références dérivées en interne, mais comme pour toutes les données de test fournies par le fournisseur, vous devez l’aborder avec prudence. Nous avons inclus les notes de test à la fin de l’album ci-dessus.
Les références d’AMD incluent un gain de 66% pour le Milan-X à 16 cœurs par rapport à un modèle Milan standard, mais les résultats sont tout aussi impressionnants par rapport au Xeon d’Intel.
En ce qui concerne les charges de travail hautement threadées avec des puces phares, AMD affirme qu’un serveur à double socket avec ses puces phares 7773X à 64 cœurs offre 44 % à 96 % de performances en plus qu’un système Intel Xeon 8380 à deux sockets (puces à 40 cœurs) dans un sélection des charges de travail d’analyse structurelle, de dynamique des fluides et de FEA.
Vous vous attendriez à ce que le serveur EPYC à 128 cœurs batte le serveur Intel à 80 cœurs, donc AMD a également fourni une comparaison cœur à cœur avec ces mêmes applications. Ici, nous voyons le 7573X à 32 cœurs d’AMD face au Xeon 8382 à 32 cœurs d’Intel, le battant de 23% à 88% dans ces mêmes références.
AMD dispose d’une liste impressionnante de partenaires ISV exécutant toute la gamme des types d’applications qui fonctionnent le mieux avec l’architecture 3D V-Cache et bénéficie également d’un large soutien de la part de fournisseurs de matériel, tels que Supermicro, Dell, Lenovo, HPE, Gigabyte et QCT, entre autres.
Les processeurs Milan-X sont aujourd’hui disponibles dans le monde entier auprès des détaillants, et les systèmes sont également disponibles chez les équipementiers. De plus, Milan-X est disponible via les machines virtuelles HBv3 de Microsoft Azure.
Les joueurs mettront la main sur le Ryzen 7 5800X3D, la première puce de jeu dotée de la technologie 3D V-Cache, le mois prochain.