Cerebras, la société à l’origine de la plus grande puce d’accélération au monde, le CS-2 Wafer Scale Engine, vient d’annoncer une étape importante : la formation du plus grand modèle d’IA NLP (Natural Language Processing) au monde dans un seul appareil. Bien que cela en soi puisse signifier beaucoup de choses (ce ne serait pas vraiment un record à battre si le plus grand modèle précédent était formé dans une smartwatch, par exemple), le modèle d’IA formé par Cerebras a atteint un niveau stupéfiant – et sans précédent – 20 milliards de paramètres. Le tout sans que la charge de travail doive être répartie sur plusieurs accélérateurs. C’est suffisant pour s’adapter à la dernière sensation d’Internet, le générateur d’images à partir de texte, le DALL-E à 12 milliards de paramètres d’OpenAI (s’ouvre dans un nouvel onglet).
L’élément le plus important de la réalisation de Cerebras est la réduction des exigences en matière d’infrastructure et de complexité logicielle. Certes, un seul système CS-2 s’apparente à un supercalculateur à lui tout seul. Le Wafer Scale Engine-2 – qui, comme son nom l’indique, est gravé dans une seule plaquette de 7 nm, généralement assez pour des centaines de puces grand public – dispose d’un stupéfiant 2,6 billions de transistors 7 nm, de 850 000 cœurs et de 40 Go de cache intégré dans un package consommant environ 15kW.
Le fait de conserver jusqu’à 20 milliards de modèles NLP dans une seule puce réduit considérablement les frais généraux de formation sur des milliers de GPU (et les exigences matérielles et de mise à l’échelle associées) tout en éliminant les difficultés techniques de partitionnement des modèles entre eux. Cerebras dit que c’est « l’un des aspects les plus pénibles des charges de travail de la PNL », parfois « qui prend des mois à accomplir ».
C’est un problème sur mesure qui est unique non seulement à chaque réseau de neurones en cours de traitement, aux spécifications de chaque GPU et au réseau qui relie le tout – des éléments qui doivent être résolus à l’avance avant le début de la première formation. Et il ne peut pas être porté sur plusieurs systèmes.
Les chiffres purs peuvent rendre la réussite de Cerebras décevante – le GPT-3 d’OpenAI, un modèle NLP qui peut écrire des articles entiers qui peuvent parfois tromper les lecteurs humains, comporte 175 milliards de paramètres stupéfiants. Gopher de DeepMind, lancé à la fin de l’année dernière, porte ce nombre à 280 milliards. Les cerveaux de Google Brain ont même annoncé la formation d’un modèle à plus d’un billion de paramètres, le Switch Transformer.
« En PNL, les modèles plus grands se révèlent plus précis. Mais traditionnellement, seules quelques entreprises très sélectionnées disposaient des ressources et de l’expertise nécessaires pour effectuer le travail minutieux consistant à décomposer ces grands modèles et à les répartir sur des centaines ou des milliers d’unités de traitement graphique », a déclaré Andrew Feldman, PDG et cofondateur de Cerebras. Systèmes. « En conséquence, très peu d’entreprises pouvaient former de grands modèles de PNL – c’était trop cher, chronophage et inaccessible pour le reste de l’industrie. Aujourd’hui, nous sommes fiers de démocratiser l’accès aux GPT-3XL 1.3B, GPT-J 6B, GPT-3 13B et GPT-NeoX 20B, permettant à l’ensemble de l’écosystème d’IA de configurer de grands modèles en quelques minutes et de les entraîner sur un seul CS-2 .”
Pourtant, tout comme les vitesses d’horloge des meilleurs processeurs du monde, le nombre de paramètres n’est qu’un seul indicateur possible des performances. Récemment, des travaux ont été effectués pour obtenir de meilleurs résultats avec moins de paramètres – Chinchilla, par exemple, surpasse régulièrement GPT-3 et Gopher avec seulement 70 milliards d’entre eux. L’objectif est de travailler plus intelligemment, pas plus dur. En tant que telle, la réalisation de Cerebras est plus importante qu’il n’y paraît à première vue – les chercheurs seront forcément en mesure d’adapter des modèles de plus en plus complexes, même si l’entreprise affirme que son système a le potentiel de prendre en charge des modèles avec « des centaines de milliards voire des trillions de paramètres ».
Cette explosion du nombre de paramètres exploitables utilise la technologie Weight Streaming de Cerebras, qui peut découpler les empreintes de calcul et de mémoire, permettant ainsi d’adapter la mémoire à la quantité nécessaire pour stocker le nombre croissant de paramètres dans les charges de travail d’IA. Cela permet de réduire les temps de configuration de plusieurs mois à quelques minutes et de basculer facilement entre des modèles tels que GPT-J et GPT-Neo « en quelques touches« .
« La capacité de Cerebras à proposer au grand public de grands modèles de langage avec un accès facile et économique ouvre une nouvelle ère passionnante dans l’IA. Cela donne aux organisations qui ne peuvent pas dépenser des dizaines de millions une rampe d’accès facile et peu coûteuse à la PNL des ligues majeures », a déclaré Dan Olds, directeur de la recherche chez Intersect360 Research. « Il sera intéressant de voir les nouvelles applications et découvertes que les clients CS-2 feront en formant des modèles de classe GPT-3 et GPT-J sur des ensembles de données massifs. »