xAI d’Elon Musk publie la source et les poids de Grok, narguant OpenAI

Agrandir / Une image générée par l’IA publiée par xAI lors du lancement de Grok-1 à poids ouverts.

Dimanche, la société d’IA d’Elon Musk, xAI, a publié les poids du modèle de base et l’architecture réseau de Grok-1, un grand modèle de langage conçu pour rivaliser avec les modèles qui alimentent ChatGPT d’OpenAI. La publication des poids ouverts via GitHub et BitTorrent intervient alors que Musk continue de critiquer (et de poursuivre en justice) son rival OpenAI pour ne pas avoir publié ses modèles d’IA de manière ouverte.

Annoncé en novembre, Grok est un assistant IA similaire à ChatGPT disponible pour les abonnés X Premium+ qui paient 16 $ par mois à la plateforme de médias sociaux anciennement connue sous le nom de Twitter. En son cœur se trouve un LLM composé d’experts appelé « Grok-1 », qui enregistre 314 milliards de paramètres. À titre de référence, GPT-3 comprenait 175 milliards de paramètres. Le nombre de paramètres est une mesure approximative de la complexité d’un modèle d’IA, reflétant son potentiel à générer des réponses plus utiles.

xAI publie le modèle de base de Grok-1, qui n’est pas optimisé pour une tâche spécifique. Il ne s’agit donc probablement pas du même modèle que celui utilisé par X pour alimenter son assistant Grok AI. « Il s’agit du point de contrôle brut du modèle de base de la phase de pré-formation Grok-1, qui s’est terminée en octobre 2023 », écrit xAI sur sa page de publication. « Cela signifie que le modèle n’est pas adapté à une application spécifique, telle que le dialogue », ce qui signifie qu’il n’est pas nécessairement présenté comme un chatbot. Mais il effectuera une prédiction du jeton suivant, ce qui signifie qu’il complétera une phrase (ou une autre invite de texte) avec son estimation de la chaîne de texte la plus pertinente.

« Ce n’est pas un modèle adapté aux instructions », a déclaré le chercheur en IA Simon Willison, qui a parlé à Ars par SMS. « Ce qui signifie qu’un travail supplémentaire substantiel est nécessaire pour l’amener au point où il peut fonctionner dans un contexte conversationnel. Il sera intéressant de voir si quelqu’un de l’extérieur de xAI possédant les compétences et la capacité de calcul met ce travail à contribution. »

Musk a initialement annoncé que Grok serait publié en tant que « open source » (plus d’informations sur cette terminologie ci-dessous) dans un tweet publié lundi dernier. Cette annonce intervient après que Musk ait poursuivi OpenAI et ses dirigeants, les accusant de donner la priorité aux profits plutôt qu’aux versions ouvertes de modèles d’IA. Musk a été co-fondateur d’OpenAI mais n’est plus associé à l’entreprise, mais il incite régulièrement OpenAI à publier ses modèles en open source ou en pondérations ouvertes, comme beaucoup pensent que le nom de l’entreprise le suggère.

Le 5 mars, OpenAI a répondu aux allégations d’Elon Musk en révélant d’anciens courriels qui semblaient suggérer que Musk était autrefois d’accord avec le passage d’OpenAI à un modèle commercial à but lucratif via une filiale. OpenAI a également déclaré que le terme « ouvert » dans son nom suggère que les produits qui en résulteraient seraient disponibles pour le bénéfice de tous plutôt que d’être une approche open source. Le même jour, Musk a tweeté (réparti sur deux tweets) : « Changez votre nom en ClosedAI et j’abandonnerai le procès. » Son annonce de la libération de Grok est intervenue ouvertement cinq jours plus tard.

Grok-1 : Un modèle costaud

Grok-1 est donc sorti, mais est-ce que quelqu’un peut le faire fonctionner ? xAI a publié les poids du modèle de base et l’architecture réseau sous la licence Apache 2.0. Le code d’inférence est disponible en téléchargement sur GitHub et les poids peuvent être obtenus via un lien Torrent répertorié sur la page GitHub.

Avec une taille de point de contrôle de pondération de 296 Go, seul le matériel d’inférence de classe centre de données est susceptible de disposer de la RAM et de la puissance de traitement nécessaires pour charger l’intégralité du modèle en même temps (à titre de comparaison, le plus gros fichier de pondération de Llama 2, un modèle 70B de précision de 16 bits. , fait environ 140 Go).

Jusqu’à présent, nous n’avons encore vu personne le faire fonctionner localement, mais nous avons entendu des rapports selon lesquels des personnes travaillaient sur un modèle quantifié qui réduirait sa taille afin qu’il puisse être exécuté sur du matériel GPU grand public (cela réduirait également considérablement son traitement). capacité, cependant).

Willison a confirmé nos soupçons en déclarant : « Il est difficile d’évaluer [Grok-1] en ce moment parce que c’est si gros – un [massive] torrent, et vous avez alors besoin de tout un rack de GPU coûteux pour l’exécuter. Il se pourrait bien qu’il y ait des versions quantifiées produites par la communauté dans les prochaines semaines, d’une taille plus pratique, mais si elles ne sont pas au moins compétitives en termes de qualité par rapport à Mixtral, il est difficile d’être trop enthousiasmé à ce sujet.

À juste titre, xAI ne qualifie pas les débuts de GitHub de Grok-1 de version « open source », car ce terme a une signification spécifique dans le logiciel, et l’industrie n’a pas encore arrêté de terme pour les versions de modèles d’IA qui expédient du code et des poids avec des restrictions ( comme Meta’s Llama 2) ou le code et les poids du navire sans également divulguer les données de formation, ce qui signifie que le processus de formation du modèle d’IA ne peut pas être reproduit par d’autres. Ainsi, nous appelons généralement ces versions « source disponible » ou « poids ouverts ».

« La chose la plus intéressante est qu’il dispose d’une licence Apache 2 », explique Willison. « Ce n’est pas une des licences pas tout à fait compatibles OSI utilisées pour des modèles comme Llama 2, et c’est l’un des plus grands modèles à poids ouverts jamais publiés jusqu’à présent. »

Source-147