Le discours d’ouverture d’Intel à l’International Supercomputing Conference est venu avec une nouvelle feuille de route alors qu’il travaille vers son objectif ambitieux de fournir des performances de classe Zettascale d’ici 2027. Comme vous pouvez le voir dans la feuille de route Super Compute Silicon d’Intel ci-dessus, les annonces d’aujourd’hui incluent les premiers détails du pont Rialto d’Intel GPU, la prochaine génération de ses GPU Ponte Vecchio qui n’ont pas encore été lancés. Les GPU du centre de données Rialto Bridge arboreront jusqu’à 160 cœurs fabriqués sur un nœud de processus plus récent, seront dotés d’une architecture évidemment fortement retravaillée, fonctionneront jusqu’à 800 W, offriront jusqu’à 30 % de performances supplémentaires dans les applications et commenceront à échantillonner à la mi- 2023.
De plus, Intel a partagé plus de détails sur le Falcon Shores XPU, une puce qui comportera un nombre variable de tuiles de calcul avec des cœurs x86, des cœurs GPU et de la mémoire dans un nombre vertigineux de configurations possibles. Intel prévoit de combiner ses gammes de produits CPU et GPU dans ce produit composable singulier, fusionnant les deux gammes en une seule en 2024.
Nous avons maintenant également les premiers benchmarks des puces de serveur Sapphire Rapids équipées de HBM d’Intel qui se dirigent vers le marché pour faire face aux processeurs Milan-X d’AMD. Intel affirme que ces puces offrent jusqu’à trois fois les performances de leurs prédécesseurs Ice Lake Xeon dans les applications à débit mémoire limité.
La réalisation de l’objectif Zettascale d’Intel nécessitera une série d’avancées, dont beaucoup sont révolutionnaires, et aujourd’hui, la société a également partagé certains de ses objectifs à plus court terme tout en esquissant le plan à long terme plus large avec une feuille de route des blocs de construction Zettascale. Plongeons-nous dans les annonces.
Gestionnaire de GPU et XPU Intel Rialto Bridge
Intel s’en tient à nommer ses GPU de classe entreprise d’après les ponts italiens, avec le Ponte Vecchio de génération actuelle suivi du pont Rialto, le GPU de centre de données de nouvelle génération d’Intel qui arrivera sur le marché en 2023. Intel a divulgué que cette puce comporterait jusqu’à 160 cœurs Xe, une augmentation substantielle par rapport aux 128 cœurs présents sur le Ponte Vecchio.
Comme nous pouvons le voir ci-dessus, alors que la conception du Ponte Vecchio se composait de 16 tuiles de calcul au total disposées en deux banques qui courent au centre de la puce, avec huit cœurs par tuile, le pont du Rialto n’a que huit tuiles plus longues avec (vraisemblablement) 20 cœurs Xe chacun, signifiant un changement de conception significatif.
Nous voyons également que les tuiles Rambo Cache de Ponte Vecchio ont été supprimées, bien qu’il y ait encore huit tuiles HBM d’une saveur inconnue flanquant les noyaux tandis que deux tuiles Xe Link sont disposées aux coins opposés du paquet de puces. Pour aider à illustrer les différences, les six dernières images de l’album ci-dessus incluent des schémas fonctionnels de la conception Ponte Vecchio de la génération actuelle.
Rialto Bridge est livré avec un nouveau nœud de processus non spécifié, mais Intel n’a pas précisé quels composants bénéficieront de mises à niveau (vraisemblablement, tous passeront à des nœuds plus récents). Actuellement, Intel utilise son nœud « Intel 7 » pour la tuile de base et le cache de Ponte Vecchio, TSMC 5 nm pour la tuile de calcul et TSMC 7 nm pour la tuile Xe Link.
Le pont du Rialto est également livré avec des améliorations architecturales non spécifiées, similaires à une « coche », qui confèrent jusqu’à 30 % d’amélioration des performances des applications sur le Ponte Vecchio. Intel n’a pas encore fourni de références pour étayer ces affirmations et nous n’en sommes pas sûrs. si ces améliorations se situent dans la même enveloppe d’horloge/puissance.Cependant, la projection de 30 % suit de près l’augmentation de 25 % du nombre de cœurs, ce qui implique que nous n’allons pas voir d’améliorations substantielles de l’IPC.
Intel répertorie la consommation d’énergie maximale du pont du Rialto à 800 W, une augmentation par rapport au pic de 600 W du Ponte Vecchio, et sera disponible dans le facteur de forme Open Accelerator Module (OAM). Intel annonce qu’il adoptera la spécification OAM 2.0, bien qu’il continuera également à proposer ses GPU dans d’autres facteurs de forme. Le pont du Rialto sera compatible avec les emballages du Ponte Vecchio, il peut donc s’agir d’une mise à niveau immédiate.
De plus, la société lancera prochainement son XPU Manager, un logiciel de surveillance et de gestion open source pour ses GPU de centre de données qui peut être utilisé à la fois localement et à distance. Sinon, Intel n’a partagé que des détails flous sur ce nouveau GPU, en utilisant des affirmations telles que « plus de FLOP », « augmentation de la bande passante d’E/S » et « Plus de GT/s » qui ne nous donnent aucun aperçu de la nouvelle conception. Cependant, la société a inclus une liste IDM 2.0 dans la diapositive, indiquant qu’elle continuera à utiliser des partenaires de fonderie pour certaines des tuiles du pont du Rialto. Nous sommes sûrs d’en apprendre plus bientôt, cependant – Intel dit que le pont du Rialto arrivera en 2023.
Processeur Intel Falcon Shores
Le Falcon Shores XPU d’Intel représente la continuation de l’arc de conception d’architecture hétérogène de l’entreprise avec l’objectif final de fournir 5 fois les performances par watt, 5 fois la densité de calcul dans un socket x86 et 5 fois la capacité de mémoire et la bande passante des puces de serveur existantes. La feuille de route d’Intel pour les CPU et les GPU converge avec Falcon Shores, indiquant que ces puces rempliront les deux rôles à l’avenir. C’est un pari incroyable, mais Intel construit depuis plusieurs années les bases technologiques de ce genre de changement de paradigme, il a donc les outils.
Cette conception de puce désagrégée aura des tuiles séparées de cœurs de calcul x86 et de cœurs GPU, mais Intel peut utiliser ces tuiles pour créer n’importe quel mélange des deux additifs, comme un modèle tout CPU, un modèle tout GPU ou un rapport mixte des deux. . Intel n’a pas précisé, mais il est également possible de s’attendre à ce que les tuiles de base x86 aient leur propre mélange de cœurs de performance (P-cores) et de cœurs d’efficacité (E-cores), ou nous pourrions voir des clusters de P- et E -les cœurs déployés en tant que tuiles complètes. Intel note que ces tuiles seront fabriquées sur un nœud de processus non spécifié de l’ère Angstrom, bien que le 20A d’Intel semble faire l’affaire pour les tuiles qu’il pourrait fabriquer lui-même.
Falcon Shores viendra armé de tuiles plus petites pour différentes saveurs de mémoire HBM et d’additifs de mise en réseau. Le ratio flexible de CPU, GPU, mémoire et fonctionnalité de mise en réseau permettra à Intel d’ajuster rapidement ses SKU Falcon Shores tard dans le processus de conception pour des charges de travail spécifiques ou émergentes, une considération importante en raison de l’évolution rapide du paysage dans l’espace AI/ML . Intel n’a pas précisé s’il permettra ou non aux clients de mélanger et assortir pour créer leur propre mélange préféré de tuiles, mais cela cadrerait bien avec l’approche Intel Foundry Services (IFS) de la société qui lui permettra de concéder sous licence sa propre adresse IP et également fabriquer des puces pour d’autres entreprises. Il n’est pas non plus difficile d’imaginer d’autres types de tuiles, comme FPGA ou ASIC, se frayer un chemin dans la conception si l’argent est juste.
La deuxième diapositive de l’album ci-dessus montre diverses combinaisons d’une conception à quatre tuiles avec des cœurs de calcul x86 et des cœurs GPU Xe, ainsi que quatre tuiles plus petites qui contiennent vraisemblablement des puces de mémoire et de réseau.
Naturellement, cette conception permettra à Intel de tirer parti de son modèle IDM 2.0, produisant ainsi certaines de ses propres tuiles pour certaines fonctions tout en passant des contrats avec des fabs tiers et des fournisseurs IP pour certaines tuiles d’une manière mixte qui pourrait contourner tout des problèmes de fabrication potentiels avec sa propre technologie de nœud de processus de classe Angstrom ou celle de ses fournisseurs. De plus, tirer parti de l’écosystème UCIe de chiplets ici pourrait s’avérer être une pierre angulaire qui permet à Intel d’accéder aux meilleurs additifs de mémoire et de mise en réseau que l’industrie a à offrir.
Intel tirera parti des packages avancés de nouvelle génération pour fournir une bande passante « extrême » entre les tuiles qu’il fusionnera en une seule unité cohérente. Cependant, on ne sait pas si ces puces auront un interposeur (actif?) En dessous, comme nous le voyons avec les puces Foveros empilées en 3D, ou quelles saveurs de la vaste palette de technologies d’interconnexion d’Intel il utilisera pour connecter les tuiles. Intel a beaucoup investi dans la technologie d’emballage et espère que cela rapportera ici.
Falcon Shores aura un modèle de programmation simplifié qui, selon Intel, créera une expérience de programmation « de type CPU », vraisemblablement basée sur le portefeuille OneAPI de l’entreprise. Intel s’attend à ce que ce produit arrive sur le marché d’ici 2024.
Repères Intel Sapphire Rapids HBM
Intel a partagé des références pour ses processeurs Sapphire Rapids Xeon de quatrième génération équipés de HBM2, dont nous savons qu’ils sont livrés avec jusqu’à 64 Go de mémoire HBM2e pour améliorer les performances dans les charges de travail à débit mémoire limité. Comme pour tous les repères fournis par les fournisseurs, prenez-les avec beaucoup de sel. Nous avons inclus les notes de test à la fin de l’album ci-dessus.
Intel revendique un gain de performances> 2X par rapport à sa propre puce Ice Lake Xeon 8380 dans WRF, une référence de modèle de prévision météorologique que Nvidia a récemment utilisée pour vanter les gains de son processeur Grace par rapport à Intel.
Parmi les autres faits saillants, citons une amélioration > 3X revendiquée du benchmark énergétique YASK, une amélioration 2X d’OpenFOAM et une amélioration > 3X du solveur CloverLeaf Euler. Intel revendique également une accélération 2X dans le logiciel Fluent d’Ansys et une amélioration 2X dans ParSeNet.
Intel affirme que ses Sapphire Rapids équipés de HBM arriveront sur le marché cette année. Les modèles standard de Sapphie Rapids n’ont pas encore atteint le marché général, donc cela pourrait être risqué.
Blocs de construction Zettascale d’Intel
La quête d’Intel pour passer de l’ère Exascale à l’ère Zettascale est semée d’embûches compte tenu de son objectif ambitieux pour 2027, d’autant plus que la société n’a pas encore lancé son propre supercalculateur Aurora de classe exascale. Pour l’instant, la couronne exascale appartient à AMD seul avec le supercalculateur Frontier. Le passage à Zettascale nécessitera une augmentation de 1000 fois des performances et de nouvelles technologies de nœuds de processus, architectures, mémoires et technologies de conditionnement, sans parler de la technologie de mise en réseau qui relie le tout.
Intel a présenté certaines des avancées qui, selon lui, sont nécessaires pour atteindre ce niveau supérieur de calcul, la spécification Universal Chiplet Interconnect Express (UCIe) étant la principale d’entre elles. UCIe vise à normaliser les interconnexions die-to-die entre les puces avec une conception open source, réduisant ainsi les coûts et favorisant un écosystème plus large de puces validées. De plus, la norme UCIe vise à être tout aussi omniprésente et universelle que d’autres normes de connectivité, comme USB, PCIe et NVMe, tout en fournissant des mesures de puissance et de performance exceptionnelles pour les connexions chiplet. Cette interconnexion permet à Intel d’accéder à la meilleure adresse IP de l’industrie, que ce soit en matière de réseau, de mémoire ou d’autres additifs.
Certains futurs superordinateurs pourraient avoir besoin de réacteurs nucléaires modulaires pour alimenter leur appétit expansif pour l’énergie, donc dire que la consommation d’énergie est une préoccupation est un énorme euphémisme. Intel prévoit également d’étendre sa technologie Ultra-Low Voltage, pionnière dans ses ASIC Blockscale d’extraction de Bitcoin pour fournir une réduction de 50% de la tension de charge d’horloge, afin de réduire considérablement la consommation d’énergie. Cela réduira la consommation d’énergie des puces hautes performances, réduisant ainsi la charge thermique et simplifiant le refroidissement. La technologie PowerVia d’Intel, qui fournit une alimentation arrière aux transistors, est une autre avancée critique.
Intel explore de nouvelles mémoires pour fournir un débit plus élevé dans un boîtier plus petit et envisage d’intégrer des interconnexions optiques au boîtier pour aider à faire face aux augmentations de bande passante. Le réseautage optique pourrait être utilisé à la fois pour les liaisons puce à puce et puce à puce, sans parler de l’extension prête à l’emploi dans les scénarios de mise en réseau. Le Xe Link d’Intel pourrait pivoter vers des interconnexions optiques pour améliorer la bande passante, la densité de la bande passante et réduire la consommation d’énergie. Tous ces facteurs, et bien d’autres, seront nécessaires pour qu’Intel atteigne son objectif de fournir une puissance de calcul Zettascale d’ici 2027.