Intel détaille l’architecture Sierra Forest et Granite Rapids et la feuille de route Xeon

Lors de Hot Chips 2023, Intel a dévoilé les premiers détails approfondis de ses futurs processeurs Xeon Sierra Forest et Granite Rapids, le premier étant composé des nouveaux cœurs E Sierra Glen d’Intel tandis que le second utilise les nouveaux cœurs P Redwood Cove. Les prochaines puces Xeon de cinquième génération seront lancées au premier semestre de l’année prochaine avec une nouvelle architecture basée sur des tuiles qui comprend des chipsets doubles E/S sur le processus « Intel 7 » associés à différentes configurations de cœurs de calcul gravés sur « Intel 3 ». processus. Cette conception permet à Intel de créer plusieurs produits basés sur différents types de cœurs tout en conservant la même configuration sous-jacente qui préserve la compatibilité matérielle et micrologicielle.

Sierra Forest et Granite Rapids intègrent la plate-forme Birch Stream, avec une compatibilité avec les sockets, la mémoire, le micrologiciel et les E/S offrant un processus de validation matérielle rationalisé. Ils sont également interopérables avec les mêmes piles logicielles, permettant ainsi aux clients d’utiliser l’une ou l’autre puce en fonction de leurs besoins.

Intel affirme que la conception basée sur E-Core du Xeon Sierra Forest de cinquième génération offrira une densité de rack jusqu’à 2,5 fois supérieure et des performances par watt 2,4 fois supérieures à celles de ses puces Xeon de quatrième génération, tandis que les Granite Rapids alimentés par P-Core fourniront 2 à 3 fois les performances dans les charges de travail d’IA mixtes, en partie grâce à une amélioration « jusqu’à » 2,8 fois de la bande passante mémoire. Allons-y.

Architecture de la forêt de Sierra et de Granite Rapids

Intel a initialement opté pour une architecture basée sur des tuiles (de type chiplet) avec ses processeurs Xeon Sapphire Rapids de quatrième génération, mais Sierra Forest et Granite Rapids apportent un nouveau niveau de désagrégation à l’approche.

Intel a utilisé une conception à quatre puces avec Sapphire Rapids, chaque puce contenant une partie des fonctions d’E/S pertinentes, comme la mémoire et les contrôleurs PCIe. Les nouveaux processeurs de cinquième génération désagrégent entièrement certaines fonctions d’E/S en deux chipsets HSIO distincts gravés sur le processus Intel 7, qui offre le meilleur équilibre entre coût, puissance et performances pour les E/S, tandis que les cœurs de processeur et les contrôleurs de mémoire résident. sur leurs propres chipsets de calcul dédiés.

Les tuiles de calcul utiliseront soit des cœurs P Redwood Cove (cœurs Performance) pour Granite Rapids, soit des cœurs E Sierra Glen pour Sierra Forest – Intel ne fournira pas de modèles avec les deux types de cœurs dans le même package. Les chipsets de calcul sont livrés avec le processus Intel 3 compatible EUV qui propose des bibliothèques haute densité qui n’étaient pas incluses avec le processus Intel 4. Intel a initialement retardé ses Granite Rapids Xeons de 2023 à 2024 en raison du passage de la conception « Intel 4 » à « Intel 3 », mais les puces restent dans les délais pour un lancement au premier semestre 2024.

Granite Rapids est ce que nous percevrons comme un processeur de centre de données Xeon traditionnel : ces modèles sont équipés uniquement de cœurs P capables de fournir toutes les performances des architectures les plus rapides d’Intel. Chaque P-core est livré avec 2 Mo de cache L2 et 4 Mo de cache L3. Intel n’a pas encore révélé le nombre de cœurs pour Granite Rapids, mais a révélé que la plate-forme prend en charge de un à huit sockets sur un seul serveur.

Pendant ce temps, la gamme E-core (Efficiency core) de Sierra Forest se compose de puces avec seulement des cœurs d’efficacité plus petits, un peu comme nous le voyons avec les puces Intel Alder et Raptor Lake, les positionnant bien pour rivaliser avec les processeurs Arm qui sont de plus en plus répandus dans les données. centre. Les cœurs E sont disposés en clusters à deux ou quatre cœurs qui partagent une tranche de cache L2 de 4 Mo et 3 Mo de cache L3. Les processeurs équipés d’E-Core sont livrés avec jusqu’à 144 cœurs et sont optimisés pour une efficacité énergétique, une efficacité de surface et une densité de performances optimales. Cela signifie que chaque puce de calcul E-core possède 48 cœurs. Sierra Forest peut s’intégrer dans des systèmes à une ou deux prises et a un TDP « aussi bas que » 200 W.

Quel que soit le type de cœur, chaque matrice de calcul contient les cœurs, le cache L2 et L3, ainsi que l’agent hôte de structure et de mise en cache (CHA). Ils abritent également des contrôleurs de mémoire DDR5-6400 à chaque extrémité de la puce, avec jusqu’à 12 canaux au total (1DPC ou 2DPC) de mémoire DDR standard ou de nouvelle mémoire MCR qui fournit 30 à 40 % de bande passante mémoire en plus que les DIMM standard.

Comme vous pouvez le voir ci-dessus, les chipsets de calcul seront de différentes tailles en fonction du modèle, les produits à puce de calcul unique étant accompagnés d’un cluster de calcul plus grand. Intel fera également varier le nombre de canaux de mémoire par chipset de calcul : nous voyons ici trois contrôleurs de mémoire sur le produit avec un seul chiplet de calcul, tandis que les conceptions avec deux chipsets de calcul ou plus ont deux contrôleurs de mémoire. La décision d’Intel d’intégrer étroitement ses contrôleurs de mémoire dans le chipset de calcul devrait entraîner des performances de mémoire supérieures à celles des conceptions EPYC d’AMD, qui utilisent tous ses contrôleurs de mémoire sur une seule puce d’E/S centrale, ajoutant ainsi de la latence.

Les puces de calcul partagent leur cache L3 avec tous les autres cœurs dans ce qu’Intel appelle un « maillage logiquement monolithique », mais elles peuvent également être partitionnées en clusters sous-NUMA pour optimiser la latence de certaines charges de travail. Le maillage relie les tranches de cache L3 en un cache partagé unifié, qui peut totaliser plus d’un demi-gigaoctet de capacité totale, soit près de 5 fois plus grande que celle de Sapphire Rapids. Chaque limite de puce prend en charge plus d’un To/s de bande passante entre les puces.

Les deux puces HSIO sont placées en haut et en bas du boîtier de puces avec une à trois puces de calcul au centre, toutes reliées entre elles par un nombre indéterminé d’interconnexions EMIB (Embedded Multi-Die Interconnect Bridge) fusionnées dans le substrat et connectées à une interconnexion die-to-die à chaque extrémité du pont.

Combinées, les deux matrices HSIO prennent en charge jusqu’à 136 voies PCIe 5.0/CXL 2.0 (appareils de types 1, 2 et 3), jusqu’à 6 liaisons UPI (144 voies) et des accélérateurs de compression, de cryptographie et de streaming de données de manière similaire. mode aux moteurs d’accélération de Sapphire Rapids. Chaque puce HSIO comprend également un circuit de contrôle de puissance qui gère les chipsets de calcul, bien que chaque chiplet de calcul possède également son propre contrôle de puissance qui peut fonctionner indépendamment en cas de besoin. Intel a désormais supprimé l’exigence d’un chipset (PCH), permettant ainsi aux processeurs de démarrer automatiquement, un peu comme les processeurs EPYC d’AMD.

Microarchitecture Intel Sierra Glen E-Core

Source-138