Cerebras Systems, fabricant du plus grand processeura battu le record du modèle d’IA le plus complexe formé à l’aide d’un seul appareil.
En utilisant un Système CS-2alimenté par la puce de la taille d’une tranche de la société (WSE-2), Cerebras est désormais capable de former des modèles d’IA avec jusqu’à 20 milliards de paramètres grâce à de nouvelles optimisations au niveau logiciel.
L’entreprise affirme que cette percée résoudra l’un des problèmes les plus frustrants pour les ingénieurs en intelligence artificielle : la nécessité de partitionner des modèles à grande échelle sur des milliers de GPU. Le résultat est une opportunité de réduire considérablement le temps nécessaire pour développer et former de nouveaux modèles.
Cerebras apporte l’IA aux masses
Dans des sous-disciplines comme le traitement du langage naturel (TAL), les performances du modèle sont corrélées de manière linéaire avec le nombre de paramètres. En d’autres termes, plus le modèle est grand, meilleur est le résultat final.
Aujourd’hui, développer des produits d’IA à grande échelle implique traditionnellement de diffuser un modèle sur un grand nombre de GPU ou d’accélérateurs, soit parce qu’il y a trop de paramètres à loger dans Mémoire ou les performances de calcul sont insuffisantes pour gérer les charges de travail de formation.
« Ce processus est douloureux et prend souvent des mois », a expliqué Cerebras. Pour aggraver les choses, le processus est unique à chaque paire de clusters de calcul réseau, de sorte que le travail n’est pas portable sur différents clusters de calcul ou sur des réseaux de neurones. C’est entièrement sur-mesure. »
Bien que le plus les modèles complexes se composent de plus de 20 milliards de paramètres, la possibilité de former des modèles d’IA à relativement grande échelle sur un seul appareil CS-2 élimine ces goulots d’étranglement pour beaucoup, accélérant le développement pour les acteurs existants et démocratisant l’accès pour ceux qui ne pouvaient auparavant pas participer au espace.
« La capacité de Cerebras à proposer au grand public de grands modèles de langage avec un accès facile et économique ouvre une nouvelle ère passionnante dans l’IA. Cela donne aux organisations qui ne peuvent pas dépenser des dizaines de millions une rampe d’accès facile et peu coûteuse à la PNL des ligues majeures », a déclaré Dan Olds, directeur de la recherche chez Intersect360 Research.
« Il sera intéressant de voir les nouvelles applications et découvertes que les clients CS-2 feront en formant des modèles de classe GPT-3 et GPT-J sur des ensembles de données massifs. »
De plus, Cerebras a laissé entendre que son système CS-2 pourrait être capable de gérer des modèles encore plus grands à l’avenir, avec « même des billions de paramètres ». Et enchaînant plusieurs systèmes CS-2quant à lui, pourrait ouvrir la voie à des réseaux d’IA plus grands que le cerveau humain.