Hier, le site d’examen technique Chips and Cheese a publié un examen de la nouvelle technologie 3D V-Cache d’AMD, présentant ses performances par rapport aux générations précédentes de processeurs Zen. Chips and Cheese a choisi les processeurs de serveur EPYC d’AMD pour ce rôle, y compris le 3D V-Cache activé EPYC 7V73 (Milan-X) et vanilla Zen 3 EPYC 7763 (Milan).
3D V-Cache est une nouvelle technologie développée par AMD, permettant d’empiler verticalement le cache L3, ce qui peut augmenter considérablement la taille du cache tout en utilisant très peu d’espace. AMD a déjà démontré des gains de performances impressionnants avec la nouvelle technologie, car elle permet aux cœurs du processeur d’être alimentés avec plus d’informations de manière cohérente.
En comparant Zen 3 seul, avec et sans 3D V-Cache, Chips and Cheese a remarqué que l’EPYC 7V73 avec 3D V-Cache fonctionnait juste un poil moins bien que la vanille Zen 3 EPYC 7763 lorsque le test n’utilisait pas plus de cache L3 que ce que le 7763 avait à offrir. La différence de latence était de trois à quatre cycles, ce qui était un compromis nécessaire en raison du V-Cache 3D.
Cependant, une fois le cache du 7763 rempli, le 7V73, avec sa taille de cache monstrueuse, a permis à la puce d’avoir beaucoup moins de latence que le 7763 jusqu’à ce que le V-Cache 3D soit plein. Fait intéressant, le 7V73 avait également une latence de mémoire légèrement inférieure à celle du 7763.
Lors de l’ajout de puces Zen 1 et Zen 2 EPYC – comme les 7551 et 7452 dans le mélange, nous avons vu une image encore meilleure de la qualité réelle des puces 3D V-Cache d’AMD. Chips and Cheese a noté que le réglage du cache L3 pour compter de Zen 1 à Zen 2 coûte une latence supplémentaire d’environ cinq cycles. Ensuite, la décision d’unifier les deux blocs de 16 Mo de cache L3 sur Zen 3 à partir de Zen 2 a ajouté sept à huit cycles de latence encore plus élevés.
Pendant ce temps, le passage d’AMD de Zen 3 à Zen 3 3D V-Cache, et le triplement de la taille du cache L3 ne coûte que trois à quatre cycles de latence, ce qui est la pénalité la plus négligeable que nous ayons vue jusqu’à présent.
Le graphique de Chips and Cheese a montré que toutes les générations Zen avaient une latence de cache L1 et L2 presque identique. Pourtant, en ce qui concerne le cache L3, la latence a diminué à mesure que l’utilisation du cache L3 augmentait entre les générations devenait de plus en plus grande, en particulier avec Zen 3 à Zen 3 avec 3D V-Cache.
Bande passante
Dans les résultats de la bande passante, Chips and Cheese a découvert que le V-Cache 3D 7V73X d’AMD ne fournissait pas autant de bande passante qu’annoncé par AMD. Lors des tests, il a remarqué que le 7V73X ne recevait qu’une augmentation d’environ 25 % des octets par cycle dans le test de bande passante du cache à un seul thread, bien loin du gain de bande passante multiplié par 2 promis par AMD.
Cependant, Chips and Cheese pensait qu’il pourrait y avoir une diminution de la vitesse d’horloge une fois que le processeur atteignait des charges de travail plus importantes qui profitaient du cache L3, expliquant en fait la différence.
Un autre phénomène étrange s’est produit avec le 7V73X, dans lequel le test de bande passante du cache CCD unique montre que la puce 3D V-Cache a un léger déficit de bande passante par rapport au 7763 standard, d’environ 12,5 %. Chips and Cheese soupçonnait que c’était pour contrôler l’alimentation en raison des 64 cœurs chargés sur les deux puces. Cela a beaucoup de sens car 3D V-Cache prend plus de place et nécessite un peu plus de puissance, ce qui rend le refroidissement du processeur un peu plus complexe.
Fait intéressant, ce même phénomène s’est également produit sur la puce EPYC 7452 d’AMD basée sur la microarchitecture Zen 2. Le processeur EPYC 7763 Zen 3 était la seule puce à fonctionner de manière égale dans le test de bande passante CCD unique et le test de bande passante monothread.
Pour ceux qui s’interrogent sur Zen 1, la bande passante du cache n’est même pas proche de ses homologues Zen 2 et Zen 3 ; l’EPYC 7551 testé est venu avec moins de la moitié de la bande passante pour une grande majorité du test. Ce n’est qu’au milieu et à la fin du test qu’il a même failli rattraper son retard.
Conclusion
Alors, que signifient toutes ces données en termes de performances dans le monde réel ? Chips and Cheese a exécuté plusieurs benchmarks, notamment Gem5, libx264 4K Transcoding, 7-Zip, etc. Ce n’est que dans Gem5 que 3D V-Cache a fait une différence significative en termes de performances. Le reste était terne et à peine perceptible, avec environ 5% de gain de performances en faveur de la puce 3D V-Cache.
Les résultats préliminaires de Chips and Cheese suggèrent que l’impact du V-Cache 3D n’est pas aussi important qu’AMD l’avait déjà prédit. Cependant, il faudra des tests plus approfondis pour porter un jugement. De plus, nous ne pouvons pas oublier qu’il s’agit de 3D V-Cache sur les processeurs de serveur EYPC d’AMD, donc le comportement de 3D V-Cache sur ses homologues grand public peut varier.
D’une part, le 7V73X est une puce monstre avec un énorme 64 cœurs, de sorte que la puce est sensible à la sortie thermique et à la puissance et étranglera rapidement les cœurs du processeur si nécessaire. Il est ajusté en ajoutant du cache, en ajoutant plus d’exigences de dissipation de puissance et de chaleur au processeur.
Un autre est les charges de travail du serveur, qui peuvent traditionnellement être plus gourmandes en calcul que sensibles à la latence en raison de leur nature. 3D V-Cache ne s’avérera utile que si les cœurs ne sont pas le goulot d’étranglement et n’exécutent pas de threads qui prennent beaucoup de temps à traiter.
Dans l’espace grand public, nous voyons des puces avec beaucoup moins de cœurs, ce qui réduit les besoins en énergie et permet aux cœurs de se dégourdir les jambes avec un léger écart de vitesse d’horloge. Ce n’est pas un problème avec des systèmes de refroidissement compétents et des cartes mères offrant des solutions d’alimentation robustes avec beaucoup plus de marge que le CPU n’en aura jamais besoin dans l’espace de bricolage PC.
Les applications dans l’espace grand public sont généralement beaucoup moins gourmandes en calcul, ce qui fait que la latence du cache joue un rôle plus critique. C’est très vrai dans les jeux vidéo, où les processeurs sont rarement chargés jusqu’à 100 %, mais une latence plus faible signifie que les images pré-rendues parviennent plus rapidement au GPU, ce qui réduit le décalage d’entrée et augmente les fréquences d’images.