Cerebras tue les GPU et bat le record des plus grands modèles d’IA formés sur un seul appareil

Cerebras, la société à l’origine de la plus grande puce d’accélération au monde, le CS-2 Wafer Scale Engine, vient d’annoncer une étape importante : la formation du plus grand modèle d’IA NLP (Natural Language Processing) au monde dans un seul appareil. Bien que cela en soi puisse signifier beaucoup de choses (ce ne serait pas vraiment un record à battre si le plus grand modèle précédent était formé dans une smartwatch, par exemple), le modèle d’IA formé par Cerebras a atteint un niveau stupéfiant – et sans précédent – 20 milliards de paramètres. Le tout sans que la charge de travail doive être répartie sur plusieurs accélérateurs. C’est suffisant pour s’adapter à la dernière sensation d’Internet, le générateur d’images à partir de texte, le DALL-E à 12 milliards de paramètres d’OpenAI (s’ouvre dans un nouvel onglet).

L’élément le plus important de la réalisation de Cerebras est la réduction des exigences en matière d’infrastructure et de complexité logicielle. Certes, un seul système CS-2 s’apparente à un supercalculateur à lui tout seul. Le Wafer Scale Engine-2 – qui, comme son nom l’indique, est gravé dans une seule plaquette de 7 nm, généralement assez pour des centaines de puces grand public – dispose d’un stupéfiant 2,6 billions de transistors 7 nm, de 850 000 cœurs et de 40 Go de cache intégré dans un package consommant environ 15kW.

Wafer Scale Engine-2 de Cerebras dans toute sa splendeur de la taille d’une plaquette. (Crédit image : Cerebras)

Le fait de conserver jusqu’à 20 milliards de modèles NLP dans une seule puce réduit considérablement les frais généraux de formation sur des milliers de GPU (et les exigences matérielles et de mise à l’échelle associées) tout en éliminant les difficultés techniques de partitionnement des modèles entre eux. Cerebras dit que c’est « l’un des aspects les plus pénibles des charges de travail de la PNL », parfois « qui prend des mois à accomplir ».

C’est un problème sur mesure qui est unique non seulement à chaque réseau de neurones en cours de traitement, aux spécifications de chaque GPU et au réseau qui relie le tout – des éléments qui doivent être résolus à l’avance avant le début de la première formation. Et il ne peut pas être porté sur plusieurs systèmes.

Cérébras CS-2

Le CS-2 de Cerebras est un cluster de supercalcul autonome qui comprend non seulement le Wafer Scale Engine-2, mais également tous les sous-systèmes d’alimentation, de mémoire et de stockage associés. (Crédit image : Cerebras)

Les chiffres purs peuvent rendre la réussite de Cerebras décevante – le GPT-3 d’OpenAI, un modèle NLP qui peut écrire des articles entiers qui peuvent parfois tromper les lecteurs humains, comporte 175 milliards de paramètres stupéfiants. Gopher de DeepMind, lancé à la fin de l’année dernière, porte ce nombre à 280 milliards. Les cerveaux de Google Brain ont même annoncé la formation d’un modèle à plus d’un billion de paramètres, le Switch Transformer.

Source-138