Elon Musk’s costly AI supercomputer project, xAI Colossus, has been unveiled, featuring 100,000 GPUs housed in advanced Supermicro servers. YouTuber ServeTheHome showcased the intricate setup, emphasizing its immense power and energy needs. Currently the world’s largest AI supercomputer, Colossus is dedicated to training various AI models for X (formerly Twitter) and plans to double its capacity with additional GPUs soon. The project’s ambitious scale raises questions about the future viability of such investments in the AI sector.
Le supercalculateur d’IA xAI Colossus, le dernier projet ambitieux d’Elon Musk, a été révélé pour la première fois grâce à un aperçu exclusif par le YouTubeur ServeTheHome. Ce système impressionnant, doté de 100 000 GPU, est opérationnel depuis près de deux mois après une phase d’assemblage de 122 jours.
Exploration d’un supercalculateur de 100 000 GPU
Patrick, de ServeTheHome, a utilisé une caméra pour montrer les différents composants du serveur, offrant une compréhension approfondie de son fonctionnement. Toutefois, certaines informations sensibles, comme la consommation énergétique et la taille des pompes, n’ont pas été divulguées en raison d’un accord de confidentialité, xAI ayant flouté certaines parties de la vidéo. Néanmoins, les éléments cruciaux, tels que les serveurs GPU Supermicro, apparaissent nettement dans son reportage.
Les serveurs GPU utilisés sont des Nvidia HGX H100, chaque unité étant équipée de huit GPU H100. Cette plateforme s’intègre dans un système de refroidissement liquide Supermicro 4U, permettant un remplacement facile à chaud des GPU. Les racks abritent huit serveurs chacun, totalisant 64 GPU par rack, avec des unités de refroidissement 1U entre chaque serveur. En bas de chaque rack, on trouve un autre système Supermicro 4U, intégré avec un système de pompe redondante et un dispositif de surveillance des racks.
Les racks sont organisés en groupes de huit, accumulant jusqu’à 512 GPU par baie. Chaque serveur est pourvu de quatre alimentations redondantes, et la partie arrière des racks abrite des alimentations triphasées, des commutateurs Ethernet, ainsi qu’un collecteur de taille rack qui assure le refroidissement. Au total, le cluster Colossus comprend plus de 1 500 racks de GPU, répartis en près de 200 matrices. D’après Jensen Huang, PDG de Nvidia, l’installation des GPU dans ces racks s’est faite en seulement trois semaines.
Pour assurer une bande passante adéquate nécessaire à l’entraînement constant des modèles d’IA, xAI a mis en œuvre une interconnectivité réseau avancée. Chaque GPU est équipé d’un NIC (contrôleur d’interface réseau) dédié à 400GbE, et chaque serveur a un NIC additionnel de 400Gb. Cela équivaut à un débit Ethernet impressionnant de 3,6 térabits par seconde par serveur. Il est à noter que l’ensemble du cluster utilise Ethernet, contrairement aux systèmes InfiniBand plus courants dans le milieu des supercalculateurs.
En plus des GPU, un supercalculateur comme Colossus nécessite également d’autres composants. Bien que moins d’informations soient disponibles sur les serveurs de stockage et les unités centrales, il semble que la majorité des serveurs soient conçus par Supermicro, avec des unités 1U spécialisées NVMe comprenant des processeurs x86 et un refroidissement liquide intégré.
À l’extérieur de la configuration, on observe des batteries Tesla Megapack, agencées de manière compacte. L’interaction dynamique entre le réseau électrique et les générateurs diesel de Musk a entraîné l’utilisation de ces Megapacks comme réserve d’énergie, chacun pouvant stocker jusqu’à 3,9 MWh.
Fonctionnalités et perspectives du supercalculateur Colossus
Actuellement, xAI Colossus est présenté par Nvidia comme le supercalculateur d’IA le plus puissant au monde. Contrairement à de nombreux autres supercalculateurs dédiés à la recherche, Colossus est spécifiquement conçu pour entraîner des modèles d’IA destinés à X (anciennement Twitter), incluant Grok 3, le chatbot développé par Musk, accessible exclusivement aux abonnés X Premium. Il est également impliqué dans l’élaboration de modèles d’IA futurs dont les potentialités dépassent les capacités actuelles.
Bien que la première phase de construction de Colossus soit achevée, des améliorations sont déjà envisagées. Il est prévu d’étendre la capacité GPU pour inclure 50 000 GPU H100 supplémentaires ainsi que 50 000 GPU H200 de nouvelle génération. Cette mise à niveau doublera également la consommation d’énergie, nécessitant ainsi une expansion des générateurs diesel déjà présents sur le site. Bien que la promesse initiale de Musk ait été de doter Colossus de 300 000 H200, cette possibilité pourrait constituer une phase future d’optimisation.
En parallèle, le superordinateur Cortex, regroupant