AMD a annoncé aujourd’hui une gamme de nouveaux produits lors de son événement Data Center and AI Technology Premiere ici à San Francisco, en Californie. La société a finalement partagé plus de détails sur ses processeurs Instinct MI300A qui comportent des cœurs CPU et GPU empilés en 3D sur le même package avec HBM, et un nouveau modèle MI300X uniquement GPU qui apporte huit accélérateurs sur une plate-forme qui utilise un incroyable 1,5 To de HBM3 mémoire.
La société a également fait des annonces concernant ses processeurs EPYC Bergamo 5 nm pour les applications cloud natives et ses processeurs EPYC Genoa-X avec jusqu’à 1,1 Go de cache L3. Ces trois produits sont disponibles dès maintenant, mais AMD a également ses processeurs EPYC Sienna pour les télécommunications et le bord à venir dans la seconde moitié de 2023.
Combiné avec le portefeuille de réseaux et de DPU Alveo et Pensando d’AMD, AMD dispose d’une gamme complète de produits adaptés aux charges de travail d’IA, ce qui le place en conflit direct avec le leader du marché Nvidia, son principal concurrent pour les produits d’accélération de l’IA, et Intel, qui propose également plusieurs AI -des solutions d’accélération sur une large gamme de produits.
Cet article se concentre sur l’actualité autour du MI300, mais nous ajouterons des liens vers nos autres contenus sous peu. Nous venons de recevoir les informations d’AMD, donc cet article sera mis à jour au fur et à mesure que nous ajouterons plus de détails.
AMD Instinct MI300
L’Instinct MI300A est un APU de centre de données qui mélange un total de 13 puces, dont beaucoup sont empilées en 3D, pour créer un seul paquet de puces avec vingt-quatre cœurs de processeur Zen 4 fusionnés avec un moteur graphique CDNA 3 et huit piles de mémoire HBM3. totalisant 128 Go. Dans l’ensemble, la puce pèse 146 milliards de transistors, ce qui en fait la plus grande puce qu’AMD ait mise en production. Les neuf matrices de calcul, un mélange de processeurs et de GPU de 5 nm, sont empilées en 3D sur quatre matrices de base de 6 nm qui sont des interposeurs actifs qui gèrent la mémoire et le trafic d’E/S, entre autres fonctions. L’instinct MI300 alimentera le supercalculateur El Capitan à deux exaflops, qui devrait être le plus rapide au monde lorsqu’il sera mis en ligne plus tard cette année.
Aujourd’hui, AMD a annoncé une variante uniquement GPU, le MI300X, et a présenté plusieurs démos de ses performances. Le MI300X uniquement GPU est optimisé pour les grands modèles de langage (LLM) et est équipé uniquement de tuiles GPU CDNA3 associées à 192 Go de mémoire HBM3.
La capacité de mémoire volumineuse, répartie sur des puces HBM3 de 24 Go, permet à la puce d’exécuter des LLM jusqu’à 80 milliards de paramètres, ce qui, selon AMD, est un record pour un seul GPU. La puce offre 5,2 To/s de bande passante mémoire sur huit canaux et 896 Go/s de bande passante Infinity Fabric. Le MI300X offre une densité HBM 2,4X supérieure à celle du Nvidia H100 et une bande passante HBM 1,6X supérieure à celle du H100, ce qui signifie qu’AMD peut exécuter des modèles plus grands que les puces Nvidia.
La puce est forgée à partir de 12 puces différentes sur un mélange de nœuds de 5 nm (GPU) et de 6 nm (puce d’E/S), qui comprennent huit GPU et plusieurs matrices d’E/S, pour un total de 153 milliards de transistors.
Le MI300A peut fonctionner dans plusieurs modes différents, mais le mode principal se compose d’un seul domaine de mémoire et d’un domaine NUMA, fournissant ainsi une mémoire d’accès uniforme pour tous les cœurs CPU et GPU. Pendant ce temps, le MI300X utilise une mémoire cohérente entre tous ses clusters GPU. L’essentiel est que la mémoire cache cohérente réduit le mouvement des données entre le CPU et le GPU, qui consomme souvent plus d’énergie que le calcul lui-même, réduisant ainsi la latence et améliorant les performances et l’efficacité énergétique.
AMD a réalisé une démonstration d’un modèle Falcon-40B de 40 milliards de paramètres fonctionnant sur un seul GPU MI300X, mais aucune métrique de performance n’a été fournie. Au lieu de cela, le LLM a écrit un poème sur San Francisco, le lieu de l’événement d’AMD. AMD affirme que c’est la première fois qu’un modèle de cette taille est exécuté sur un seul GPU.
AMD a également annoncé la plate-forme AMD Instinct, qui combine huit GPU MI300X sur une seule carte mère de serveur avec 1,5 To de mémoire HBM3 totale. Cette plate-forme est compatible OCP, contrairement aux plates-formes MGX propriétaires de Nvidia. AMD affirme que cette conception open source accélérera le déploiement.
MI300A, le modèle CPU + GPU, échantillonne maintenant. La plate-forme MI300X et 8-GPU Instinct sera échantillonnée au troisième trimestre et lancée au quatrième trimestre. Nous cherchons toujours plus de détails – restez à l’écoute pour en savoir plus dans les prochaines heures.