Intel a dévoilé son premier tissu photonique maille à maille directe lors de la conférence sur les puces Hot Chips 2023, soulignant ses progrès vers un avenir d’interconnexions optiques puce à puce qui sont également défendues par Nvidia et Ayar Labs. Cependant, la puce à huit cœurs et 528 threads utilisée par Intel pour la démonstration a volé la vedette en raison de son architecture unique qui comporte 66 threads par cœur pour permettre un débit de données allant jusqu’à 1 To/s. Étonnamment, la puce ne consomme que 75 W d’énergie, dont environ 60 % sont utilisés par les interconnexions optiques, mais sa conception pourrait éventuellement permettre à des systèmes dotés de deux millions de cœurs d’être directement connectés avec une latence inférieure à 400 ns.
La puce PUMA (Programmable Unified Memory Architecture) d’Intel fait partie du programme DARPA HIVE qui se concentre sur l’amélioration des performances dans les travaux d’analyse graphique à l’échelle du pétaoctet afin de débloquer une amélioration de 1 000 fois des performances par watt dans des charges de travail hyper clairsemées.
Étonnamment pour une entreprise centrée sur x86 comme Intel, la puce de test utilise une architecture RISC personnalisée pour des performances rationalisées dans les charges de travail d’analyse graphique, offrant une amélioration de 8 fois les performances monothread. La puce est également créée à l’aide du processus 7 nm de TSMC, et non des nœuds internes d’Intel.
Après avoir caractérisé les charges de travail cibles, Intel a conclu qu’il lui fallait élaborer une architecture capable de résoudre les défis associés à la pression extrême sur le sous-système de mémoire, aux pipelines profonds, aux prédicteurs de branchement et à la logique désordonnée créée par la charge de travail.
Le cœur personnalisé d’Intel utilise un parallélisme extrême à hauteur de 66 threads matériels pour chacun des huit cœurs, de grands caches d’instructions et de données L1 et 4 Mo de SRAM scratch par cœur. La puce à huit cœurs comprend 32 ports d’E/S optiques qui fonctionnent à 32 Go/s/répertoire chacun, totalisant ainsi 1 To/s de bande passante totale. Les puces sont placées dans un traîneau de serveur OCP à huit sockets, offrant jusqu’à 16 To/s de débit optique total pour le système, et chaque puce est alimentée par 32 Go de DRAM DDR5-4000 personnalisée.
Intel a fabriqué la puce sur le processus 7 nm de TSMC avec 27,6 milliards de transistors répartis sur une puce de 316 mm^2. Les huit cœurs, qui consomment 1,2 milliard de transistors, s’étendent au centre de la puce, flanqués de huit contrôleurs de mémoire personnalisés avec une granularité d’accès de 8 octets. Les routeurs de communication peuplent le centre « vide » de la puce.
La puce comprend également quatre chipsets d’E/S optiques à huit canaux haute vitesse, deux en haut et deux en bas de la puce, qui relient les signaux électriques internes aux interconnexions optiques externes. Ces unités sont connectées via le packaging EMIB d’Intel et utilisent le protocole AIB. La puce dispose également d’une connexion PCIe 4.0 x8 pour communiquer avec le système hôte.
Le déplacement de l’incroyable quantité de données générées par 528 threads autour de la puce nécessite une interconnexion optimisée. Intel a donc conçu un maillage 2D sur la puce avec 16 routeurs pour mélanger les données entre les cœurs, les contrôleurs de mémoire et les interconnexions photoniques sur silicium (huit routeurs sont intégrés dans les cœurs du processeur, tandis que six routeurs sont entièrement dédiés au seul mouvement des données).
Comme vous pouvez le voir dans l’album ci-dessus, les connecteurs photoniques sont intégrés au boîtier de la puce et pendent sur les côtés de la puce pour une liaison externe avec d’autres puces. La puce est connectée à un réseau optique externe « HyperX » qui fournit des connexions tout-à-tout pour les cœurs de traitement individuels. Cet incroyable réseau permet de connecter directement jusqu’à deux millions de cœurs avec une latence inférieure à 400 ns.
Le résultat final est impressionnant : la puce ne consomme que 75 W, dont 59 % sont dédiés à la photonique sur silicium et 21 % aux cœurs. Intel affirme que les performances améliorées du réseau optique permettent une évolution linéaire presque parfaite des performances de un à 1 000 cœurs.
La promesse des interconnexions optiques a alimenté un nombre croissant de recherches alors que l’industrie se tourne vers les futures méthodes de transport de données offrant des caractéristiques de bande passante, de latence et de consommation d’énergie supérieures par rapport aux techniques de communication traditionnelles de puce à puce. Alors que les déploiements grand public d’interconnexions de puces optiques restent à l’horizon, des implémentations spécialisées, comme celles défendues par Intel, Nvidia et Ayar Labs, sont sur le point d’être prêtes pour des déploiements à grande échelle dans un avenir proche.