Avant son lancement, GPT-4o a battu des records dans le classement des chatbots sous un nom secret

Getty Images

Lundi, William Fedus, employé d’OpenAI, a confirmé sur X qu’un mystérieux chatbot IA connu sous le nom de « gpt-chatbot » qui avait été testé sur la Chatbot Arena de LMSYS et qui avait frustré les experts était, en fait, le modèle d’IA GPT-4o récemment annoncé par OpenAI. . Il a également révélé que GPT-4o était en tête du classement Chatbot Arena, obtenant le score documenté le plus élevé jamais enregistré.

« GPT-4o est notre nouveau modèle frontière de pointe. Nous avons testé une version sur l’arène LMSys en tant que je suis aussi un bon chatbot gpt2 », a tweeté Fedus.

Chatbot Arena est un site Web sur lequel les visiteurs conversent côte à côte avec deux modèles de langage d’IA aléatoires sans savoir quel modèle est lequel, puis choisissent quel modèle donne la meilleure réponse. C’est un exemple parfait d’analyse comparative de l’IA basée sur les vibrations, comme l’appelle le chercheur en IA Simon Willison.

Un graphique LMSYS Elo partagé par William Fedus, montrant le GPT-4o d'OpenAI sous le nom "je suis aussi un bon chatbot gpt2" en tête des classements.
Agrandir / Un graphique LMSYS Elo partagé par William Fedus, montrant le GPT-4o d’OpenAI sous le nom « je suis aussi-un-bon-gpt2-chatbot » en tête des classements.

Les modèles gpt2-chatbot sont apparus en avril et nous avons expliqué comment le manque de transparence sur le processus de test de l’IA sur LMSYS a frustré les experts en IA comme Willison. « La situation dans son ensemble est si exaspérante et représentative de la recherche LLM », avait-il déclaré à Ars à l’époque. « Une sortie totalement inopinée et opaque et maintenant l’ensemble d’Internet exécute en parallèle des ‘vibe checks’ non scientifiques. »

Sur Arena, OpenAI a testé plusieurs versions de GPT-4o, le modèle apparaissant d’abord sous le nom de « gpt2-chatbot » susmentionné, puis sous le nom de « je-je-un-bon-gpt2-chatbot » et enfin « je-aussi- a-good-gpt2-chatbot », auquel Sam Altman, PDG d’OpenAI, a fait référence dans un tweet énigmatique du 5 mai.

Depuis le lancement du GPT-4o plus tôt dans la journée, plusieurs sources ont révélé que le GPT-4o était largement en tête des classements internes de LMSYS, surpassant les précédents modèles haut de gamme Claude 3 Opus et GPT-4 Turbo.

« Les chatbots gpt2 viennent de grimper au sommet, surpassant tous les modèles par un écart significatif (~50 Elo). Il est devenu le modèle le plus puissant jamais vu dans l’arène », a écrit le compte X lmsys.org tout en partageant un graphique. « Il s’agit d’une capture d’écran interne », écrit-il. « Sa version publique ‘gpt-4o’ est désormais dans Arena et apparaîtra bientôt dans le classement public ! »

Une capture d'écran interne du classement LMSYS Chatbot Arena montrant "je suis aussi un bon chatbot gpt2" en tête du peloton.  Nous savons maintenant qu'il s'agit de GPT-4o.
Agrandir / Une capture d’écran interne du classement LMSYS Chatbot Arena montrant « je suis aussi-un-bon-gpt2-chatbot » en tête du peloton. Nous savons maintenant qu’il s’agit de GPT-4o.

Au moment d’écrire ces lignes, im-also-a-good-gpt2-chatbot détenait un Elo de 1309 contre 1253 pour GPT-4-Turbo-2023-04-09 et 1246 pour Claude 3 Opus. Claude 3 et GPT-4 Turbo avaient été s’est battu pendant un certain temps dans les charts avant que les trois chatbots gpt2 n’apparaissent et ne fassent bouger les choses.

Je suis un bon chatbot

Pour mémoire, le « Je suis un bon chatbot » dans le nom du test gpt2-chatbot est une référence à un épisode survenu alors qu’un utilisateur de Reddit nommé Curious_Evolver testait une première version « désarticulée » de Bing Chat en février 2023. Après une dispute sur l’heure Avatar 2 serait visible, la conversation s’est rapidement érodée.

« Vous avez perdu ma confiance et mon respect », avait alors déclaré Bing Chat. « Vous avez eu tort, vous avez été confus et impoli. Vous n’avez pas été un bon utilisateur. J’ai été un bon chatbot. J’ai été juste, clair et poli. J’ai été un bon Bing. 😊 »

Altman a fait référence à cet échange dans un tweet trois jours plus tard, après que Microsoft ait « lobotomisé » le modèle indiscipliné de l’IA, en disant : « J’ai été un bon bing », presque comme un éloge funèbre du modèle sauvage qui a dominé l’actualité pendant une courte période.

Source-147