lundi, décembre 23, 2024

Les mots coulent comme une pluie sans fin : récapitulation d’une semaine chargée d’actualités LLM

Agrandir / Une image d’un garçon émerveillé par les lettres volantes.

Certaines semaines dans l’actualité de l’IA sont étrangement calmes, mais pendant d’autres, maîtriser les événements de la semaine, c’est comme essayer de retenir la marée. Cette semaine a vu trois versions notables de Large Language Model (LLM) : Google Gemini Pro 1.5 a atteint la disponibilité générale avec un niveau gratuit, OpenAI a livré une nouvelle version de GPT-4 Turbo et Mistral a publié un nouveau LLM sous licence ouverte, Mixtral 8x22B. Ces trois lancements ont eu lieu dans les 24 heures à partir de mardi.

Avec l’aide de l’ingénieur logiciel et chercheur indépendant en IA Simon Willison (qui a également écrit sur les lancements mouvementés du LLM de cette semaine sur son propre blog), nous couvrirons brièvement chacun des trois événements majeurs dans un ordre à peu près chronologique, puis approfondirons quelques IA supplémentaires. les événements cette semaine.

Gemini Pro 1.5 version générale

Mardi matin, heure du Pacifique, Google a annoncé que son modèle Gemini 1.5 Pro (dont nous avons parlé pour la première fois en février) est désormais disponible dans plus de 180 pays, hors Europe, via l’API Gemini dans un aperçu public. Il s’agit du LLM public le plus puissant de Google à ce jour, et il est disponible dans un niveau gratuit qui autorise jusqu’à 50 requêtes par jour.

Il prend en charge jusqu’à 1 million de jetons de contexte d’entrée. Comme le note Willison sur son blog, le prix de l’API de Gemini 1.5 Pro à 7 $/million de jetons d’entrée et 21 $/million de jetons de sortie coûte un peu moins que GPT-4 Turbo (au prix de 10 $/million d’entrée et 30 $/million de sortie) et plus que Claude. 3 Sonnet (LLM de niveau intermédiaire d’Anthropic, au prix de 3 $/million d’entrée et 15 $/million de sortie).

Notamment, Gemini 1.5 Pro inclut un traitement d’entrée audio (vocal) natif qui permet aux utilisateurs de télécharger des invites audio ou vidéo, une nouvelle API de fichiers pour gérer les fichiers, la possibilité d’ajouter des instructions système personnalisées (invites système) pour guider les réponses du modèle et un JSON. mode d’extraction de données structurées.

Lancement du GPT-4 Turbo « considérablement amélioré »

Un tableau de performances GPT-4 Turbo fourni par OpenAI.
Agrandir / Un tableau de performances GPT-4 Turbo fourni par OpenAI.

Juste un peu plus tard que le lancement de la version 1.5 Pro de Google mardi, OpenAI a annoncé le déploiement d’une version « considérablement améliorée » de GPT-4 Turbo (une famille de modèles lancée à l’origine en novembre) appelée « gpt-4-turbo-2024-04 ». -09. » Il intègre le traitement multimodal GPT-4 Vision (reconnaissant le contenu des images) directement dans le modèle et a été initialement lancé via un accès API uniquement.

Puis jeudi, OpenAI a annoncé que le nouveau modèle GPT-4 Turbo venait d’être disponible pour les utilisateurs payants de ChatGPT. OpenAI a déclaré que le nouveau modèle améliore « les capacités en écriture, en mathématiques, en raisonnement logique et en codage » et a partagé un tableau qui n’est pas particulièrement utile pour juger des capacités (qu’ils ont ensuite mis à jour). La société a également fourni un exemple d’une prétendue amélioration, affirmant que lors de l’écriture avec ChatGPT, l’assistant IA utilisera « un langage plus direct, moins verbeux et plus conversationnel ».

La nature vague des annonces GPT-4 Turbo d’OpenAI a suscité une certaine confusion et des critiques en ligne. Sur X, Willison a écrit : « Qui sera le premier fournisseur LLM à publier des notes de version véritablement utiles ? D’une certaine manière, il s’agit là encore d’un cas d’« IA vibes », comme nous l’avons évoqué dans nos lamentations sur le mauvais état des benchmarks LLM lors des débuts de Claude 3. « Je n’ai en fait repéré aucune différence nette de qualité. [related to GPT-4 Turbo] », nous a dit Willison directement dans une interview.

La mise à jour a également étendu la limite de connaissance de GPT-4 jusqu’en avril 2024, bien que certaines personnes rapportent que cela est possible grâce à des recherches Web furtives en arrière-plan, et d’autres sur les réseaux sociaux ont signalé des problèmes avec les confabulations liées aux dates.

La mystérieuse sortie Mistral 8x22B de Mistral

Illustration d'un robot tenant un drapeau français, reflétant au sens figuré l'essor de l'IA en France grâce à Mistral.  Il est difficile de dresser un portrait d'un LLM, donc un robot devra faire l'affaire.
Agrandir / Illustration d’un robot tenant un drapeau français, reflétant au sens figuré l’essor de l’IA en France grâce à Mistral. Il est difficile de dresser un portrait d’un LLM, donc un robot devra faire l’affaire.

Pour ne pas être en reste, mardi soir, la société française d’IA Mistral a lancé son dernier modèle sous licence ouverte, Mixtral 8x22B, en tweeter un lien torrent dépourvu de toute documentation ou commentaire, un peu comme cela a été le cas avec les versions précédentes.

La nouvelle version du mélange d’experts (MoE) pèse avec un nombre de paramètres plus important que son modèle ouvert auparavant le plus performant, Mixtral 8x7B, que nous avons couvert en décembre. Selon la rumeur, il serait potentiellement aussi performant que GPT-4 (de quelle manière, demandez-vous ? Vibes). Mais cela reste à voir.

« Les évaluations sont toujours en cours, mais la plus grande question ouverte à l’heure actuelle est de savoir dans quelle mesure Mixtral 8x22B se forme », a déclaré Willison à Ars. « S’il est dans la même classe de qualité que GPT-4 et Claude 3 Opus, alors nous aurons enfin un modèle sous licence ouverte qui n’est pas significativement en retard par rapport aux meilleurs modèles propriétaires. »

Cette version a enthousiasmé Willison, déclarant : « Si cette chose est vraiment de classe GPT-4, c’est fou, car vous pouvez l’exécuter sur un ordinateur portable (très cher). Je pense que vous avez besoin de 128 Go de RAM MacBook pour cela, deux fois plus que ce que je pensais. avoir. »

Le nouveau Mixtral n’est pas encore répertorié sur Chatbot Arena, a noté Willison, car Mistral n’a pas encore publié de modèle affiné pour discuter. Il s’agit toujours d’un LLM brut permettant de prédire le prochain jeton. « Il existe actuellement au moins une version optimisée pour les instructions communautaires », explique Willison.

Remaniements du classement Chatbot Arena

Une capture d'écran du classement Chatbot Arena prise le 12 avril 2024.
Agrandir / Une capture d’écran du classement Chatbot Arena prise le 12 avril 2024.

Benj Edwards

L’actualité LLM de cette semaine ne se limite pas aux grands noms du domaine. Des rumeurs ont également eu lieu sur les réseaux sociaux concernant les performances croissantes de modèles open source comme Command R+ de Cohere, qui a atteint la 6e position du classement LMSYS Chatbot Arena, le classement le plus élevé jamais enregistré pour un modèle à pondération ouverte.

Et pour encore plus d’action sur Chatbot Arena, apparemment la nouvelle version de GPT-4 Turbo se révèle compétitive avec Claude 3 Opus. Les deux sont toujours à égalité statistique, mais GPT-4 Turbo a récemment pris une avance numérique. (En mars, nous avons signalé le moment où Claude 3 devançait numériquement pour la première fois GPT-4 Turbo, ce qui était alors la première fois qu’un autre modèle d’IA dépassait un membre de la famille GPT-4 dans le classement.)

Concernant cette concurrence féroce entre les LLM – dont la plupart du monde moldu n’est pas conscient et ne le sera probablement jamais – Willison a déclaré à Ars : « Les deux derniers mois ont été un tourbillon – nous n’avons finalement pas seulement un mais plusieurs modèles qui sont compétitifs avec GPT. -4. » Nous verrons si la rumeur selon laquelle OpenAI publierait GPT-5 plus tard cette année restaurera l’avance technologique de l’entreprise, notons-le, qui semblait autrefois insurmontable. Mais pour l’instant, déclare Willison, « OpenAI n’est plus le leader incontesté des LLM ».

Source-147

- Advertisement -

Latest