Anthropic présente Claude 3.5 Sonnet, correspondant à GPT-4o sur les benchmarks

Anthropique / Benj Edwards

Jeudi, Anthropic a annoncé Claude 3.5 Sonnet, son dernier modèle de langage d’IA et le premier d’une nouvelle série de modèles « 3.5 » qui s’appuient sur Claude 3, lancée en mars. Claude 3.5 peut composer du texte, analyser des données et écrire du code. Il comporte une fenêtre contextuelle de 200 000 jetons et est disponible dès maintenant sur le site Web de Claude et via une API. Anthropic a également introduit Artefacts, une nouvelle fonctionnalité de l’interface Claude qui affiche les documents de travail associés dans une fenêtre dédiée.

Jusqu’à présent, les gens extérieurs à Anthropic semblent impressionnés. « Ce modèle est vraiment, vraiment bon », a écrit Simon Willison, chercheur indépendant en IA sur X. « Je pense que c’est le nouveau meilleur modèle global (et à la fois plus rapide et moitié moins cher que l’Opus, similaire au GPT-4 Turbo au GPT- 4o saut). »

Comme nous l’avons déjà écrit, les benchmarks pour les grands modèles de langage (LLM) sont problématiques car ils peuvent être sélectionnés avec soin et ne capturent souvent pas la sensation et les nuances de l’utilisation d’une machine pour générer des résultats sur presque tous les sujets imaginables. Mais selon Anthropic, Claude 3.5 Sonnet correspond ou surpasse les modèles concurrents comme GPT-4o et Gemini 1.5 Pro sur certains critères comme MMLU (connaissances de premier cycle), GSM8K (mathématiques à l’école primaire) et HumanEval (codage).

Benchmarks Claude 3.5 Sonnet fournis par Anthropic.
Agrandir / Benchmarks Claude 3.5 Sonnet fournis par Anthropic.

Si tout cela vous fait émerveiller les yeux, ce n’est pas grave ; c’est significatif pour les chercheurs mais surtout marketing pour tout le monde. Une mesure de performance plus utile provient de ce que nous pourrions appeler des « vibemarks » (inventés ici en premier !) qui sont des sentiments globaux subjectifs et non rigoureux mesurés par une utilisation concurrentielle sur des sites comme Chatbot Arena de LMSYS. Le modèle Claude 3.5 Sonnet y est actuellement en cours d’évaluation, et il est trop tôt pour dire quel sera son rendement.

Claude 3.5 Sonnet surpasse également le meilleur modèle précédent d’Anthropic (Claude 3 Opus) sur des critères mesurant le « raisonnement », les compétences en mathématiques, les connaissances générales et les capacités de codage. Par exemple, le modèle a démontré de solides performances lors d’une évaluation de codage interne, résolvant 64 pour cent des problèmes contre 38 pour cent pour Claude 3 Opus.

Claude 3.5 Sonnet est également un modèle d’IA multimodal qui accepte les entrées visuelles sous forme d’images, et le nouveau modèle serait excellent dans une batterie de tests de compréhension visuelle.

Benchmarks Claude 3.5 Sonnet fournis par Anthropic.
Agrandir / Benchmarks Claude 3.5 Sonnet fournis par Anthropic.

En gros, les critères visuels signifient que le Sonnet 3.5 est plus efficace que les modèles précédents pour extraire des informations des images. Par exemple, vous pouvez lui montrer la photo d’un lapin portant un casque de football, et le modèle saura que c’est un lapin portant un casque de football et pourra en parler. C’est amusant pour les démonstrations technologiques, mais la technologie n’est toujours pas assez précise pour les applications de la technologie où la fiabilité est essentielle à la mission.

Source-147