« Le roi est mort » : Claude 3 surpasse pour la première fois GPT-4 sur Chatbot Arena

Mardi, le grand modèle de langage (LLM) Claude 3 Opus d’Anthropic a dépassé le GPT-4 d’OpenAI (qui alimente ChatGPT) pour la première fois sur Chatbot Arena, un classement populaire utilisé par les chercheurs en IA pour évaluer les capacités relatives des modèles de langage d’IA. « Le roi est mort », a tweeté le développeur de logiciels Nick Dobos dans un article comparant le GPT-4 Turbo et le Claude 3 Opus qui a fait le tour des réseaux sociaux. « RIP GPT-4. »

Depuis que GPT-4 a été inclus dans Chatbot Arena vers le 10 mai 2023 (le classement a été lancé le 3 mai de la même année), les variantes de GPT-4 ont toujours été en tête du classement jusqu’à présent, donc sa défaite dans l’arène est un moment marquant dans l’histoire relativement courte des modèles de langage d’IA. L’un des plus petits modèles d’Anthropic, Haiku, a également fait tourner les têtes grâce à ses performances dans le classement.

« Pour la première fois, les meilleurs modèles disponibles (Opus pour les tâches avancées, Haiku pour le coût et l’efficacité) proviennent d’un fournisseur qui n’est pas OpenAI », a déclaré à Ars Technica le chercheur indépendant en IA Simon Willison. « C’est rassurant : nous bénéficions tous d’une diversité de fournisseurs de premier plan dans ce domaine. Mais GPT-4 a plus d’un an à ce stade, et il a fallu cette année-là pour que quelqu’un d’autre rattrape son retard. »

Une capture d'écran du classement LMSYS Chatbot Arena montrant Claude 3 Opus en tête face à GPT-4 Turbo, mis à jour le 26 mars 2024.
Agrandir / Une capture d’écran du classement LMSYS Chatbot Arena montrant Claude 3 Opus en tête face à GPT-4 Turbo, mis à jour le 26 mars 2024.

Benj Edwards

Chatbot Arena est géré par Large Model Systems Organization (LMSYS ORG), une organisation de recherche dédiée aux modèles ouverts qui fonctionne comme une collaboration entre les étudiants et les professeurs de l’Université de Californie à Berkeley, de l’UC San Diego et de l’Université Carnegie Mellon.

Nous avons décrit le fonctionnement du site en décembre, mais en bref, Chatbot Arena présente à un utilisateur visitant le site Web une zone de saisie de chat et deux fenêtres affichant la sortie de deux LLM non étiquetés. La tâche de l’utilisateur est d’évaluer quelle sortie est la meilleure en fonction des critères qu’il juge les plus adaptés. Grâce à des milliers de ces comparaisons subjectives, Chatbot Arena calcule les « meilleurs » modèles globalement et remplit le classement, en le mettant à jour au fil du temps.

Chatbot Arena est important pour les chercheurs car ils éprouvent souvent de la frustration à essayer de mesurer les performances des chatbots IA, dont les résultats extrêmement variables sont difficiles à quantifier. En fait, nous avons expliqué à quel point il est notoirement difficile de comparer objectivement les LLM dans notre article sur le lancement de Claude 3. Pour cette histoire, Willison a souligné le rôle important des « vibrations », ou sentiments subjectifs, dans la détermination de la qualité d’un LLM. LLM. « Encore un autre cas de » vibrations « en tant que concept clé de l’IA moderne », a-t-il déclaré.

Une capture d'écran de Chatbot Arena le 27 mars 2024 montrant le résultat de deux LLM aléatoires qui ont été demandés, "La couleur s'appellerait-elle « magenta » si la ville de Magenta n'existait pas ?"
Agrandir / Une capture d’écran de Chatbot Arena le 27 mars 2024 montrant la sortie de deux LLM aléatoires auxquels on a demandé : « La couleur s’appellerait-elle « magenta » si la ville de Magenta n’existait pas ? »

Benj Edwards

Le sentiment de « vibrations » est courant dans le domaine de l’IA, où les références numériques qui mesurent les connaissances ou la capacité à passer des tests sont souvent sélectionnées par les fournisseurs pour rendre leurs résultats plus favorables. « Je viens de passer une longue session de codage avec l’opus Claude 3 et il écrase absolument gpt-4. Je ne pense pas que les tests standards rendent justice à ce modèle », a tweeté le développeur de logiciels d’IA Anton Bacaj le 19 mars.

L’ascension de Claude peut faire réfléchir OpenAI, mais comme Willison l’a mentionné, la famille GPT-4 elle-même (bien que mise à jour plusieurs fois) a plus d’un an. Actuellement, Arena répertorie quatre versions différentes de GPT-4, qui représentent des mises à jour incrémentielles du LLM qui sont figées dans le temps car chacune a un style de sortie unique, et certains développeurs les utilisant avec l’API d’OpenAI ont besoin de cohérence pour que leurs applications soient construites sur Les sorties de GPT-4 ne se cassent pas.

Il s’agit notamment de GPT-4-0314 (la version « originale » de GPT-4 de mars 2023), GPT-4-0613 (un instantané de GPT-4 du 13 juin 2023, avec « une prise en charge améliorée des appels de fonctions », selon OpenAI), GPT-4-1106-preview (la version de lancement de GPT-4 Turbo à partir de novembre 2023) et GPT-4-0125-preview (le dernier modèle de GPT-4 Turbo, destiné à réduire les cas de « paresse » de janvier 2024).

Pourtant, même avec quatre modèles GPT-4 dans le classement, les modèles Claude 3 d’Anthropic ont constamment grimpé dans les classements depuis leur sortie au début du mois. Le succès de Claude 3 parmi les utilisateurs d’IA Assistant a déjà amené certains utilisateurs de LLM à remplacer ChatGPT dans leur flux de travail quotidien, ce qui pourrait ronger la part de marché de ChatGPT. Sur X, le développeur de logiciels Pietro Schirano a écrit : « Honnêtement, ce qui est le plus fou dans tout ce Claude 3 > GPT-4, c’est à quel point il est facile de simplement… changer ??

Gemini Advanced, de Google, aux capacités similaires, gagne également du terrain dans le domaine des assistants IA. Cela peut mettre OpenAI en garde pour le moment, mais à long terme, la société prépare de nouveaux modèles. Il est prévu de lancer un nouveau successeur majeur de GPT-4 Turbo (qu’il soit nommé GPT-4.5 ou GPT-5) cette année, peut-être au cours de l’été. Il est clair que l’espace LLM sera plein de concurrence pour le moment, ce qui pourrait entraîner des bouleversements plus intéressants dans le classement Chatbot Arena dans les mois et les années à venir.

Source-147