Cerebras, la société qui construit la plus grande puce au monde, le Wafer Scale Engine 2 (WSE-2), a dévoilé aujourd’hui son supercalculateur Andromeda. Andromeda combine 16 des puces WSE-2 de la taille d’une tranche en un seul cluster avec 13,5 millions de cœurs optimisés pour l’IA qui, selon la société, fournissent jusqu’à 1 exaflop de puissance de calcul IA, ou 120 pétaflops de demi-précision 16 bits.
Les puces sont logées dans seize systèmes CS-2. Chaque puce fournit jusqu’à 12,1 To/s de bande passante interne (96,8 térabits) aux cœurs AI, mais les données sont transmises aux processeurs CS-2 via un réseau 100 GbE réparti sur 124 nœuds de serveur dans 16 racks. Au total, ces serveurs sont alimentés par 284 processeurs EPYC Milan de troisième génération dotés de 64 cœurs chacun, totalisant 18 176 cœurs.
L’ensemble du système consomme 500 KW, ce qui est une quantité d’énergie considérablement inférieure à celle des supercalculateurs accélérés par GPU quelque peu comparables. Cependant, la mise à l’échelle d’une charge de travail sur de tels supercalculateurs massivement parallèles a longtemps été l’un des principaux inhibiteurs – à un moment donné, la mise à l’échelle a tendance à s’effondrer, donc l’ajout de plus de matériel entraîne une diminution rapide du point de rendement.
Cependant, Cerebras affirme que son implémentation évolue de manière presque linéaire avec les grands modèles de langage de classe GPT, tels que GPT-3, GPT-J et GPT-NeoX. Andromeda peut également traiter des modèles de 2,5 milliards et 25 milliards de paramètres que les clusters GPU standard ne peuvent tout simplement pas gérer en raison des limitations de mémoire.
Pour rappel, le Cerebras WSE-2 est le plus gros processeur monopuce au monde. Chaque puce de 7 nm est spécialement conçue pour faire face aux charges de travail de l’IA avec 850 000 cœurs spécifiques à l’IA répartis sur 46 225 mm2 de silicium contenant 2,6 billions de transistors. La puce dispose de 40 Go de mémoire SRAM sur puce, de 20 pétaoctets de bande passante mémoire et de 220 pétabits de bande passante de structure agrégée. Chaque WSE-2 consomme 15kW de puissance.
La mise à l’échelle de la charge de travail est inférieure à la moyenne sur la plupart des grands systèmes, ce qui entraîne une diminution du point de rendement, souvent en raison des limitations du code, de la mémoire, de la structure et/ou du réseau. Cependant, Cerebras a montré que ses systèmes CS-2 évoluent de manière presque linéaire via le parallélisme des données sans aucune modification du code sous-jacent. Le supercalculateur Andromeda de la société a commencé à gérer les charges de travail dans les dix minutes suivant sa connexion complète.
Les seize CS-2 utilisent l’interconnexion MemoryX et Swarm-X de la société pour simplifier et orchestrer la division du modèle entre les systèmes. Cette approche stocke les paramètres du modèle hors puce dans une armoire MemoryX tout en gardant le modèle sur puce, permettant à un seul système de calculer des modèles d’IA plus grands qu’auparavant et de lutter contre les problèmes typiques de latence et de bande passante mémoire qui limitent souvent l’évolutivité avec des groupes de processeurs. Cerebras affirme que cela permet au système d’évoluer de manière quasi linéaire sur jusqu’à 192 systèmes CS-2.
Andromeda est déployé au centre de données de Colovore à Santa Clara, en Californie. La société a ouvert Andromeda à la fois aux clients et aux chercheurs universitaires, y compris le Laboratoire national d’Argonne, qui déclare avoir déjà placé l’intégralité du génome du COVID-19 dans une fenêtre de séquence et exécuté la charge de travail sur jusqu’à 16 nœuds avec une « approche linéaire presque parfaite ». mise à l’échelle. » Ce projet est maintenant finaliste pour le prestigieux ACM Gordon Bell Special Prize. Les autres utilisateurs incluent JaperAI et l’Université de Cambridge. Vous pouvez en savoir plus sur le système ici.