Mardi, la société d’intelligence artificielle d’Elon Musk, xAI, a annoncé la sortie bêta de deux nouveaux modèles de langage, Grok-2 et Grok-2 mini, disponibles pour les abonnés de sa plateforme de médias sociaux, X (anciennement Twitter). Les modèles sont également liés au modèle de synthèse d’images Flux récemment publié, qui permet aux utilisateurs de X de créer des images photoréalistes largement non censurées qui peuvent être partagées sur le site.
« Flux, accessible via Grok, est un excellent générateur de texte en image, mais il est également très efficace pour créer de fausses photographies de lieux et de personnes réels, et les envoyer directement sur Twitter », a écrit Ethan Mollick, commentateur fréquent de l’IA sur X. « Est-ce que quelqu’un sait s’ils y apposent un filigrane d’une manière ou d’une autre ? Ce serait une bonne idée. »
Dans un rapport publié plus tôt dans la journée, The Verge a noté que les capacités de génération d’images de Grok semblent avoir des garanties minimales, permettant aux utilisateurs de créer du contenu potentiellement controversé. Selon leurs tests, lorsque Grok y était invité, il produisait des images représentant des personnalités politiques dans des situations compromettantes, des personnages protégés par le droit d’auteur et des scènes de violence.
The Verge a constaté que même si Grok prétend avoir certaines limites, comme éviter les contenus pornographiques ou excessivement violents, ces règles semblent incohérentes dans la pratique. Contrairement à d’autres grands générateurs d’images IA, Grok ne semble pas refuser les invites impliquant de vraies personnes ni ajouter de filigranes d’identification à ses résultats.
Au vu des images diffusées jusqu’à présent par les internautes (notamment celles de Donald Trump et Kamala Harris s’embrassant ou levant le pouce en direction des Twin Towers, ce qui semble être une attaque du 11 septembre), il est possible que les publications sans restriction ne durent pas très longtemps. Mais Elon Musk a fait grand cas de la « liberté d’expression » sur sa plateforme, et cette possibilité pourrait donc perdurer (jusqu’à ce que quelqu’un intente une action en diffamation ou pour atteinte aux droits d’auteur).
Les personnes qui utilisent le générateur d’images de Grok pour créer un effet de choc soulèvent à ce stade une vieille question de l’IA : l’utilisation abusive d’un générateur d’images d’IA doit-elle être la responsabilité de la personne qui crée l’invite, de l’organisation qui a créé le modèle d’IA ou de la plateforme qui héberge les images ? Jusqu’à présent, il n’y a pas de consensus clair et la situation n’a pas encore été résolue sur le plan juridique, bien qu’une nouvelle proposition de loi américaine appelée NO FAKES Act tiendrait vraisemblablement X responsable de la création de deepfakes d’images réalistes.
Jeudi matin, Musk a donné son avis sur les personnes utilisant le générateur d’images IA sur X. En réponse à une question ouverte de Mollick sur la raison pour laquelle xAI a choisi d’utiliser Flux pour permettre aux utilisateurs de générer des images sans filtres de contenu supplémentaires, Musk a écrit : « Nous avons notre propre système de génération d’images en cours de développement, mais c’est dans quelques mois, donc cela semblait être une bonne étape intermédiaire pour que les gens s’amusent. »
Avec Grok-2, le plafond du GPT-4 tient toujours
Au-delà des images, dans un blog de sortie, xAI affirme que Grok-2 et Grok-2 mini représentent des avancées significatives en termes de capacités, Grok-2 étant censé surpasser certains concurrents de premier plan dans les récents benchmarks et ce que nous appelons les « vibemarks ». Il est toujours sage d’aborder ces affirmations avec une dose de scepticisme, mais il semble que la « classe GPT-4 » des modèles de langage d’IA (ceux qui ont des capacités similaires au modèle d’OpenAI) se soit élargie, mais la barrière GPT-4 n’a pas encore été brisée.
« Il existe désormais cinq modèles de classe GPT-4 : GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 et maintenant Grok 2 », a écrit Ethan Mollick sur X. « Tous les laboratoires disent qu’il reste de la place pour de nouvelles améliorations gigantesques, mais nous n’avons vu aucun modèle dépasser véritablement GPT-4… pour l’instant. »
xAI a récemment annoncé l’introduction d’une première version de Grok-2 dans la Chatbot Arena de LMSYS sous le nom de « sus-column-r », où elle aurait obtenu un score Elo global plus élevé que des modèles comme Claude 3.5 Sonnet et GPT-4 Turbo. Chatbot Arena est un site Web populaire de marquage subjectif des vibrations pour les modèles d’IA, mais il a récemment fait l’objet d’une controverse lorsque des personnes n’étaient pas d’accord avec le classement du mini GPT-4o d’OpenAI.
Selon xAI, les deux nouveaux modèles Grok présentent des améliorations par rapport à leur prédécesseur Grok-1.5 dans des domaines tels que les connaissances scientifiques de niveau universitaire, les connaissances générales et la résolution de problèmes mathématiques dans des tests de référence qui se sont également révélés controversés. La société a également souligné les performances de Grok-2 sur les tâches visuelles, revendiquant des résultats de pointe en matière de raisonnement mathématique visuel et de réponse aux questions basées sur des documents.
Les modèles sont désormais disponibles pour les abonnés X Premium et Premium+ via une interface d’application mise à jour. Contrairement à certains de ses concurrents dans le domaine des pondérations ouvertes, xAI ne publie pas les pondérations des modèles pour téléchargement ou vérification indépendante. Cette approche fermée contraste fortement avec les récentes initiatives de Meta, qui a récemment publié son modèle Llama 3.1 405B pour que chacun puisse le télécharger et l’exécuter localement.
xAI prévoit de lancer les deux modèles via une API d’entreprise dans le courant du mois. La société affirme que cette API comportera des options de déploiement multirégionales et des mesures de sécurité, comme l’authentification multifacteur obligatoire. Les détails sur les prix, les limites d’utilisation ou les politiques de traitement des données n’ont pas encore été annoncés.
Outre la génération d’images photoréalistes, le plus gros défaut de Grok-2 est peut-être son lien profond avec X, qui lui donne tendance à extraire des informations inexactes des tweets. C’est un peu comme si vous aviez un ami qui insistait pour consulter le site du réseau social avant de répondre à l’une de vos questions, même si elles n’étaient pas particulièrement pertinentes.
Comme l’a souligné Mollick sur X, ce lien étroit peut être ennuyeux : « Je n’ai accès qu’à Grok 2 mini pour le moment, et il semble être un modèle solide, mais il semble souvent mal servi par sa connexion RAG à Twitter », a-t-il écrit. « Le modèle est alimenté par des résultats de Twitter qui semblent sans rapport avec l’invite, puis essaie désespérément de les connecter en quelque chose de cohérent. »
Cet article a été mis à jour à 9h30 le 15 août 2024 pour inclure une citation d’Elon Musk sur le générateur d’images de Grok.