Nous sommes toujours sur les talons de l’annonce officielle par AMD de son accélérateur de centre de données AI, le MI300X. C’est certainement une force de traitement avec laquelle il faut compter – une force qu’AMD vise à utiliser comme un gourdin pour essayer de déloger Nvidia de son perchoir en tant qu’acteur dominant dans le monde de l’accélération de l’IA. Mais l’augmentation des performances se traduit parfois par une consommation d’énergie plus élevée, bien que chaque nouvelle architecture améliore généralement l’efficacité énergétique (consomme moins d’énergie pour la même unité de travail). Et le MI300X basé sur OAM (module d’accélération OCP) d’AMD est certainement un gourmand en énergie : à 750 W, c’est en fait le produit avec le TDP le plus élevé jamais enregistré dans son facteur de forme. Mais ne vous inquiétez pas : les spécifications des solutions OAM vont jusqu’à 1 000 W de puissance délivrable, il est donc encore possible d’augmenter encore les performances.
Bien que 750 W représentent une quantité énorme d’énergie à consommer par n’importe quel matériel informatique individuel (du moins du point de vue d’un individu), nous devons garder à l’esprit que ces watts alimentent un matériel beaucoup plus rapide et plus spécialisé que même les cartes graphiques les plus puissantes d’AMD. Pour cette puissance, AMD propose ce qu’il prétend être l’accélérateur le plus performant pour les charges de travail liées à l’IA (à la fois en IA générative et en Large Language Model). [LLM] traitement).
Compte tenu de la façon dont AMD a réussi à caser 12 puces construites sur deux processus de fabrication (8x 5nm [GPU] et 4x nœuds 6nm [I/O die] pour un total de 153 milliards de transistors, cette affirmation peut avoir un certain soutien. Bien sûr, il y a aussi le fait qu’AMD a réussi à exécuter un modèle LLM de 40 milliards de paramètres (Falcon 40-B) sur un seul MI300X. C’est impressionnant, surtout si l’on considère qu’AMD vise à ce que le MI300X puisse évoluer jusqu’à huit accélérateurs dans un seul package.
Ligne 0 – Cellule 0 | AMD MI300X | AMD MI300A | AMD MI250X | AMD RX 7900 XTX |
Cœurs de processeur | 0 | 3x CCD 8 cœurs (24 cœurs) [Zen 4] | – | – |
Cœurs GPU | 8x GCD (304 UC) [CDNA 3] | 6x GCD (228 UC) [CDNA 3] | (220 UC) [CDNA 2] | (RDNA 3) |
Mémoire adressable | 192 Go (8x 24 Go HBM3) | 128 Go (8x 16 Go HBM3) | 128 Go (8 x 16 Go HBM2e) | 24 Go GDDR5 |
Bande passante mémoire | 5,2 To/s | 5,2 To/s | ~ 3,28 To/s | 384 Go/s |
Bande passante de tissu infinie | 896 Go/s | 896 Go/s | 800 Go/s | – |
Nombre de transistors | 153 milliards | 146 milliards | ~ 58,2 milliards | ~ 57 milliards |
PDT | 750W | ? | 560W | 355W |
Comme nous le voyons dans le tableau ci-dessus, l’accent mis par AMD sur l’efficacité énergétique accrue n’a pas été suffisant pour compenser les exigences informatiques croissantes pour les scénarios de calcul haute performance (HPC), qui incluent désormais le traitement des modèles LLM qui semblent jaillir à gauche et à droite. . Les exigences de performances accrues signifient que même avec les dernières technologies et techniques d’économie d’énergie d’AMD et la dernière technologie de fabrication de TSMC, il était toujours nécessaire d’augmenter l’enveloppe de puissance de 190 W.
Mais cette augmentation de TDP de 190 W (environ 33% de consommation d’énergie en plus) se traduit par environ trois fois la puissance des transistors par rapport au MI250X – une démonstration impressionnante des gains d’efficacité, même sans tenir compte de la prise en charge améliorée du MI300X pour les algorithmes clairsemés (incroyablement important pour le traitement LLM et AI). Cela ne veut rien dire sur la différence entre les accélérateurs de calcul d’AMD et le GPU de jeu phare de la société, le RX 7900 XTX, relativement chétif.