Cerebras Systems, fabricant de la plus grande puce au monde, a annoncé que son système CS-2 prend désormais en charge PyTorch et TensorFlow, ce qui permettra aux chercheurs de former rapidement et facilement des modèles avec des milliards de paramètres.
Le CS-2 de la société est le système d’IA le plus rapide au monde et est alimenté par son processeur Wafer-Scale Engine 2 (WSE-2). Avec la sortie de la version 1.2 de la plate-forme logicielle Cerebras (CSoft), le CS-2 prend désormais en charge des cadres d’apprentissage automatique supplémentaires qui donneront aux développeurs encore plus de choix en ce qui concerne les types de modèles qu’ils souhaitent exécuter.
Emad Barsoum, directeur principal du framework d’IA chez Cerebras Systems, a expliqué dans un communiqué de presse comment CSoft permet désormais aux développeurs d’exprimer des modèles écrits dans TensorFlow ou PyTorch, en disant :
« Dès le départ, notre objectif était de prendre en charge de manière transparente le cadre d’apprentissage automatique dans lequel nos clients souhaitaient écrire. Nos clients écrivent dans TensorFlow et dans PyTorch, et notre pile logicielle, CSoft, permet d’exprimer rapidement et facilement vos modèles dans le cadre. de votre choix. Ce faisant, nos clients ont accès aux 850 000 cœurs optimisés pour l’IA et aux 40 gigaoctets de mémoire sur puce du Cerebras CS-2. »
Mise à l’échelle de grands modèles de langage
CSoft version 1.2 permet désormais aux développeurs d’écrire leurs modèles dans les frameworks open source de PyTorch ou TensorFlow et de les exécuter sur le Cerebras CS-2 sans aucune modification. Dans le même temps, un modèle d’IA écrit pour un GPU ou un CPU peut s’exécuter dans CSoft sur le CS-2 sans aucun changement.
Grâce à la puissance combinée de CS-2 et de CSoft, les développeurs peuvent passer de petits modèles tels que BERT aux plus grands modèles existants tels que GPT-3.
La formation de grands modèles à l’aide d’un GPU est difficile et prend du temps, tandis que la formation à partir de zéro sur de nouveaux ensembles de données prend souvent des semaines et des dizaines de mégawatts de puissance sur de grands clusters d’équipements hérités. De plus, à mesure que la taille du cluster augmente, la puissance, le coût et la complexité augmentent de façon exponentielle.
Cerebras Systems a construit le CS-2 pour relever ces défis et son système d’IA peut configurer même les plus grands modèles en quelques minutes seulement. Étant donné que les développeurs passent moins de temps à installer, configurer et former leurs modèles avec le CS-2, ils sont en mesure d’explorer plus d’idées en encore moins de temps.