Lors de Hot Chips 2023, Intel a dévoilé les premiers détails approfondis de ses futurs processeurs Xeon Sierra Forest et Granite Rapids, le premier étant composé des nouveaux cœurs E Sierra Glen d’Intel tandis que le second utilise les nouveaux cœurs P Redwood Cove. Les prochaines puces Xeon de cinquième génération seront lancées au premier semestre de l’année prochaine avec une nouvelle architecture basée sur des tuiles qui comprend des chipsets doubles E/S sur le processus « Intel 7 » associés à différentes configurations de cœurs de calcul gravés sur « Intel 3 ». processus. Cette conception permet à Intel de créer plusieurs produits basés sur différents types de cœurs tout en conservant la même configuration sous-jacente qui préserve la compatibilité matérielle et micrologicielle.
Sierra Forest et Granite Rapids intègrent la plate-forme Birch Stream, avec une compatibilité avec les sockets, la mémoire, le micrologiciel et les E/S offrant un processus de validation matérielle rationalisé. Ils sont également interopérables avec les mêmes piles logicielles, permettant ainsi aux clients d’utiliser l’une ou l’autre puce en fonction de leurs besoins.
Intel affirme que la conception basée sur E-Core du Xeon Sierra Forest de cinquième génération offrira une densité de rack jusqu’à 2,5 fois supérieure et des performances par watt 2,4 fois supérieures à celles de ses puces Xeon de quatrième génération, tandis que les Granite Rapids alimentés par P-Core fourniront 2 à 3 fois les performances dans les charges de travail d’IA mixtes, en partie grâce à une amélioration « jusqu’à » 2,8 fois de la bande passante mémoire. Allons-y.
Architecture de la forêt de Sierra et de Granite Rapids
Intel a initialement opté pour une architecture basée sur des tuiles (de type chiplet) avec ses processeurs Xeon Sapphire Rapids de quatrième génération, mais Sierra Forest et Granite Rapids apportent un nouveau niveau de désagrégation à l’approche.
Intel a utilisé une conception à quatre puces avec Sapphire Rapids, chaque puce contenant une partie des fonctions d’E/S pertinentes, comme la mémoire et les contrôleurs PCIe. Les nouveaux processeurs de cinquième génération désagrégent entièrement certaines fonctions d’E/S en deux chipsets HSIO distincts gravés sur le processus Intel 7, qui offre le meilleur équilibre entre coût, puissance et performances pour les E/S, tandis que les cœurs de processeur et les contrôleurs de mémoire résident. sur leurs propres chipsets de calcul dédiés.
Les tuiles de calcul utiliseront soit des cœurs P Redwood Cove (cœurs Performance) pour Granite Rapids, soit des cœurs E Sierra Glen pour Sierra Forest – Intel ne fournira pas de modèles avec les deux types de cœurs dans le même package. Les chipsets de calcul sont livrés avec le processus Intel 3 compatible EUV qui propose des bibliothèques haute densité qui n’étaient pas incluses avec le processus Intel 4. Intel a initialement retardé ses Granite Rapids Xeons de 2023 à 2024 en raison du passage de la conception « Intel 4 » à « Intel 3 », mais les puces restent dans les délais pour un lancement au premier semestre 2024.
Granite Rapids est ce que nous percevrons comme un processeur de centre de données Xeon traditionnel : ces modèles sont équipés uniquement de cœurs P capables de fournir toutes les performances des architectures les plus rapides d’Intel. Chaque P-core est livré avec 2 Mo de cache L2 et 4 Mo de cache L3. Intel n’a pas encore révélé le nombre de cœurs pour Granite Rapids, mais a révélé que la plate-forme prend en charge de un à huit sockets sur un seul serveur.
Pendant ce temps, la gamme E-core (Efficiency core) de Sierra Forest se compose de puces avec seulement des cœurs d’efficacité plus petits, un peu comme nous le voyons avec les puces Intel Alder et Raptor Lake, les positionnant bien pour rivaliser avec les processeurs Arm qui sont de plus en plus répandus dans les données. centre. Les cœurs E sont disposés en clusters à deux ou quatre cœurs qui partagent une tranche de cache L2 de 4 Mo et 3 Mo de cache L3. Les processeurs équipés d’E-Core sont livrés avec jusqu’à 144 cœurs et sont optimisés pour une efficacité énergétique, une efficacité de surface et une densité de performances optimales. Cela signifie que chaque puce de calcul E-core possède 48 cœurs. Sierra Forest peut s’intégrer dans des systèmes à une ou deux prises et a un TDP « aussi bas que » 200 W.
Quel que soit le type de cœur, chaque matrice de calcul contient les cœurs, le cache L2 et L3, ainsi que l’agent hôte de structure et de mise en cache (CHA). Ils abritent également des contrôleurs de mémoire DDR5-6400 à chaque extrémité de la puce, avec jusqu’à 12 canaux au total (1DPC ou 2DPC) de mémoire DDR standard ou de nouvelle mémoire MCR qui fournit 30 à 40 % de bande passante mémoire en plus que les DIMM standard.
Comme vous pouvez le voir ci-dessus, les chipsets de calcul seront de différentes tailles en fonction du modèle, les produits à puce de calcul unique étant accompagnés d’un cluster de calcul plus grand. Intel fera également varier le nombre de canaux de mémoire par chipset de calcul : nous voyons ici trois contrôleurs de mémoire sur le produit avec un seul chiplet de calcul, tandis que les conceptions avec deux chipsets de calcul ou plus ont deux contrôleurs de mémoire. La décision d’Intel d’intégrer étroitement ses contrôleurs de mémoire dans le chipset de calcul devrait entraîner des performances de mémoire supérieures à celles des conceptions EPYC d’AMD, qui utilisent tous ses contrôleurs de mémoire sur une seule puce d’E/S centrale, ajoutant ainsi de la latence.
Les puces de calcul partagent leur cache L3 avec tous les autres cœurs dans ce qu’Intel appelle un « maillage logiquement monolithique », mais elles peuvent également être partitionnées en clusters sous-NUMA pour optimiser la latence de certaines charges de travail. Le maillage relie les tranches de cache L3 en un cache partagé unifié, qui peut totaliser plus d’un demi-gigaoctet de capacité totale, soit près de 5 fois plus grande que celle de Sapphire Rapids. Chaque limite de puce prend en charge plus d’un To/s de bande passante entre les puces.
Les deux puces HSIO sont placées en haut et en bas du boîtier de puces avec une à trois puces de calcul au centre, toutes reliées entre elles par un nombre indéterminé d’interconnexions EMIB (Embedded Multi-Die Interconnect Bridge) fusionnées dans le substrat et connectées à une interconnexion die-to-die à chaque extrémité du pont.
Combinées, les deux matrices HSIO prennent en charge jusqu’à 136 voies PCIe 5.0/CXL 2.0 (appareils de types 1, 2 et 3), jusqu’à 6 liaisons UPI (144 voies) et des accélérateurs de compression, de cryptographie et de streaming de données de manière similaire. mode aux moteurs d’accélération de Sapphire Rapids. Chaque puce HSIO comprend également un circuit de contrôle de puissance qui gère les chipsets de calcul, bien que chaque chiplet de calcul possède également son propre contrôle de puissance qui peut fonctionner indépendamment en cas de besoin. Intel a désormais supprimé l’exigence d’un chipset (PCH), permettant ainsi aux processeurs de démarrer automatiquement, un peu comme les processeurs EPYC d’AMD.
Microarchitecture Intel Sierra Glen E-Core
Intel partagera plus de détails sur la microarchitecture e-core chez Hot Chips plus tard dans la journée, mais nous avons les détails de base pour le moment (recherchez une mise à jour plus tard).
La microarchitecture Sierra Glen est optimisée pour une efficacité optimale dans les charges de travail à débit scalaire, telles que les environnements évolutifs, cloud natifs et conteneurisés. L’architecture comporte des clusters à deux ou quatre cœurs, permettant à Intel de proposer certains modèles avec une capacité de cache L2 par cœur plus élevée. Les clusters E-core partagent une tranche de cache L2 de 4 Mo et 3 Mo de cache L3 partagé.
Comme pour les générations précédentes, chaque E-core est monothread. Intel a également doublé le cache L1 à 64 Ko et utilise un moteur de décodage à 6 largeurs (double 3 largeurs pour améliorer la latence et la consommation d’énergie), une allocation à 5 largeurs et un retrait à 8 largeurs. Les cœurs Sierra Glen ne prennent pas en charge AMX ou AVX-512, ils s’appuieront plutôt sur AVX10, mais Intel a ajouté la prise en charge de BF16, FP16, AVX-IFMA et AVX-DOT-PROD-INT8.
Microarchitecture Intel Redwood Cove P-Core
L’architecture Redwood Cove pour les cœurs P prend désormais en charge AMX avec l’accélération FP16, un ajout clé qui améliorera les performances des charges de travail d’inférence d’IA. Intel a également doublé la capacité du cache d’instructions L1 à 64 Ko pour mieux gérer les charges de travail des centres de données gourmandes en code. Redwood Cove utilise également des prélectures optimisées par logiciel, un moteur de prédiction de branche amélioré et une récupération erronée. Intel a également amélioré les performances en virgule flottante en passant des opérations FP à 4 et 5 cycles à 3 cycles, ce qui améliore l’IPC.
Feuille de route Intel Xeon
Bonne nouvelle pour Intel, la feuille de route du centre de données de la société reste sur la bonne voie. Sierra Forest arrivera sur le marché au premier semestre 2024, suivi de Granite Rapids peu de temps après.
Ligne 0 – Cellule 0 | 2023 | 2024 | 2025 |
Intel P-Cores | Emerald Rapids-Intel 7 | Saphir Rapids HBM | Granite Rapids-Intel 3 | Ligne 1 – Cellule 3 |
Cœurs AMD P | Gênes-X 5 nm | Turin – Zen 5 | — |
Intel E-Cœurs | — | 1H – Forêt Sierra – Intel 3 | Forêt de Clearwater – Intel 18A |
Cœurs électroniques AMD | 1H – Bergame – 5nm – 128 cœurs | — | — |
Ici, nous pouvons voir à quoi ressemble la feuille de route d’Intel à côté de la feuille de route du centre de données d’AMD. La bataille actuelle en matière de hautes performances fait rage entre l’EPYC Genoa d’AMD, lancé l’année dernière, et le Sapphire Rapids d’Intel, lancé au début de cette année. Intel lancera sa génération de rafraîchissement Emerald Rapids au quatrième trimestre de cette année, qui, selon la société, sera dotée de plus de cœurs et de fréquences d’horloge plus rapides, et elle a déjà publié ses processeurs Xeon Max infusés HBM. AMD a récemment lancé ses produits Genoa-X 5 nm. L’année prochaine, les Granite Rapids de nouvelle génération d’Intel affronteront les Turin d’AMD.
Dans le couloir d’efficacité, Bergamo d’AMD adopte une approche très similaire à celle de Sierra Forest en tirant parti des cœurs denses Zen 4c d’AMD. Bergame est déjà sur le marché, tandis que Sierra Forrest d’Intel n’arrivera pas avant le premier semestre 2024. Les puces EPYC Turin de 5e génération d’AMD seront lancées avant la fin de 2024, mais la société n’a pas présenté son modèle Zen 4c de deuxième génération. . Intel a désormais sa Clearwater Forest de deuxième génération, alimentée par E-core, sur sa feuille de route pour 2025.
Nous mettrons à jour l’article lors de la présentation. Restez à l’écoute.