AMD a dévoilé son accélérateur Instinct MI300 de nouvelle génération au CES 2023, et nous avons eu la chance d’avoir du temps pratique et de prendre quelques images en gros plan de la puce mammouth.
Ne vous méprenez pas, l’Instinct MI300 est une conception qui change la donne – l’APU du centre de données mélange un total de 13 puces, dont beaucoup sont empilées en 3D, pour créer une puce avec vingt-quatre cœurs de processeur Zen 4 fusionnés avec un graphique CDNA 3 moteur et 8 piles de HBM3. Dans l’ensemble, la puce pèse 146 milliards de transistors, ce qui en fait la plus grande puce qu’AMD ait mise en production.
Le MI300 pèse 146 milliards de transistors au total, dépassant facilement les 100 milliards de transistors Ponte Vecchio d’Intel, associés à 128 Go de mémoire HBM3. La puce delidded est incroyablement difficile à photographier étant donné son extérieur brillant, mais vous pouvez clairement voir les huit piles de HBM3 qui flanquent les matrices centrales. De petits éclats de silicium structurel sont placés entre ces empilements HBM pour assurer la stabilité lorsqu’une solution de refroidissement est appliquée au sommet du boîtier.
La partie informatique de la puce se compose de neuf puces de 5 nm qui sont des cœurs CPU ou GPU, mais AMD ne nous a pas donné de détails sur le nombre de chacun utilisé. Les cœurs Zen 4 sont généralement déployés sous forme de matrices à huit cœurs, nous pourrions donc envisager trois matrices CPU et six matrices GPU. Les matrices GPU utilisent l’architecture CDNA 3 d’AMD, la troisième révision de l’architecture graphique spécifique au centre de données d’AMD. AMD n’a pas précisé le nombre de CU.
Ces neuf matrices sont empilées en 3D sur quatre matrices de base de 6 nm qui ne sont pas simplement des interposeurs passifs – on nous dit que ces matrices sont actives et gèrent les E/S et diverses autres fonctions. Les représentants d’AMD nous ont montré un autre échantillon de MI300 dont les matrices supérieures avaient été poncées avec une ponceuse à bande pour révéler l’architecture des quatre matrices d’interposition actives. Là, nous pouvions voir clairement les structures qui permettent la communication non seulement entre les tuiles d’E/S, mais aussi les contrôleurs de mémoire qui s’interfacent avec les piles HBM3. Nous n’avons pas été autorisés à photographier ce deuxième échantillon.
La conception 3D permet un débit de données incroyable entre le CPU, le GPU et les matrices de mémoire tout en permettant au CPU et au GPU de travailler simultanément sur les mêmes données en mémoire (zéro copie), ce qui économise de l’énergie, améliore les performances et simplifie la programmation. Il sera intéressant de voir si cet appareil peut être utilisé sans DRAM standard, comme nous le voyons avec les processeurs Xeon Max d’Intel qui utilisent également le HBM intégré.
Les représentants d’AMD étaient timides avec les détails, il n’est donc pas clair si AMD utilise une approche TSV standard pour fusionner les matrices supérieure et inférieure, ou si elle utilise une approche de liaison hybride plus avancée. On nous dit qu’AMD partagera bientôt plus de détails sur l’emballage.
AMD affirme que le MI300 offre huit fois les performances de l’IA et cinq fois les performances par watt que l’Instinct MI250 (mesuré avec FP8 avec parcimonie). AMD affirme également qu’il peut réduire le temps de formation des modèles d’IA ultra-larges, comme ChatGPT et DALL-E, de plusieurs mois à plusieurs semaines, économisant ainsi des millions de dollars d’électricité.
L’Instinct MI250 de génération actuelle alimente le supercalculateur Frontier, la première machine exascale au monde, et l’Instinct MI300 alimentera les deux prochains supercalculateurs exaflop El Capitan. AMD nous dit que ces puces Halo MI300 seront chères et relativement rares – il ne s’agit pas d’un produit à volume élevé, elles ne verront donc pas un déploiement à grande échelle comme les processeurs du centre de données EPYC Genoa. Cependant, la technologie filtrera vers plusieurs variantes dans différents facteurs de forme.
Cette puce rivalisera également avec la Grace Hopper Superchip de Nvidia, qui est la combinaison d’un GPU Hopper et du processeur Grace sur la même carte. Ces puces devraient arriver cette année. Les processeurs Grace basés sur Neoverse prennent en charge le jeu d’instructions Arm v9 et les systèmes sont livrés avec deux puces fusionnées avec la nouvelle technologie d’interconnexion NVLink-C2C de Nvidia. L’approche d’AMD est conçue pour offrir un débit et une efficacité énergétique supérieurs, car la combinaison de ces appareils dans un seul boîtier permet généralement un débit plus élevé entre les unités que lors de la connexion à deux appareils distincts.
Le MI300 sera également en concurrence avec le Falcon Shores d’Intel, une puce qui comportera un nombre variable de tuiles de calcul avec des cœurs x86, des cœurs GPU et de la mémoire dans un nombre vertigineux de configurations possibles, mais celles-ci ne devraient pas arriver avant 2024.
Ici, nous pouvons voir le bas du boîtier MI300 avec les plages de contact utilisées pour un système de montage LGA. AMD n’a pas partagé de détails sur le mécanisme d’emboîtement, mais nous en saurons plus bientôt – la puce est actuellement dans les laboratoires d’AMD, et la société prévoit de livrer l’Instinct MI300 au second semestre 2023. supercalculateur sera le supercalculateur le plus rapide au monde lorsqu’il sera déployé en 2023. Il est actuellement dans les délais.