Anthropic, une entreprise d’intelligence artificielle (IA) et d' »utilité publique », a lancé Claude 2 le 11 juillet, marquant une nouvelle étape dans une année pleine de progrès apparemment ininterrompus du secteur en plein essor de l’IA générative.
Présentation de Claude 2 ! Notre dernier modèle a amélioré les performances en matière de codage, de mathématiques et de raisonnement. Il peut produire des réponses plus longues et est disponible sur un nouveau site Web bêta accessible au public à l’adresse https://t.co/uLbS2JNczH aux États-Unis et au Royaume-Uni. pic.twitter.com/jSkvbXnqLd
— Anthropique (@AnthropicAI) 11 juillet 2023
Selon un article du blog de l’entreprise, Claude 2 montre améliorations dans presque toutes les catégories mesurables. La façon dont les chercheurs discutent de leur travail est peut-être la plus remarquable parmi les différences entre lui et son prédécesseur.
Il n’y a aucune mention de l’analyse comparative de l’apprentissage automatique traditionnel ou des scores de calcul par rapport à des modèles similaires dans le billet de blog annonçant Claude 2. Au lieu de cela, Anthropic a testé à la fois Claude et Claude 2 en tête-à-tête sur de nombreux tests destinés à représenter les connaissances, les compétences et épreuves de résolution de problèmes.
Claude 2 a battu son prédécesseur à tous les niveaux en matière de connaissances, de codage et d’autres examens et, selon Anthropic, obtient même de bons résultats par rapport aux moyennes humaines :
« Par rapport aux étudiants postulant aux études supérieures, Claude 2 obtient des scores supérieurs au 90e centile aux examens de lecture et d’écriture du GRE, et de la même manière que le candidat médian sur le raisonnement quantitatif. »
Il convient de noter que de nombreux experts croire les comparaisons entre les candidats humains et ceux de l’IA sont inefficaces en raison de la nature du raisonnement cognitif humain et de la probabilité qu’un ensemble de données de formation d’un grand modèle linguistique contienne des informations de test. Essentiellement, les tests conçus pour les humains peuvent ne pas réellement « tester » la capacité d’une IA à raisonner ou fournir une démonstration appropriée des connaissances ou des compétences réelles.
Parallèlement au lancement de Claude 2, Anthropic a fait ses débuts une version bêta d’une interface Web « Talk to Claude » offrant un accès général au chatbot pour les utilisateurs des États-Unis et du Royaume-Uni.
En rapport: Comment décrocher un emploi bien rémunéré en tant qu’ingénieur d’IA
Cointelegraph a effectué de brefs tests de la nouvelle version et, de manière anecdotique, les améliorations sont immédiatement perceptibles. Claude 2 a répondu à nos invites presque instantanément avec des réponses claires et concises.
Selon Anthropic, la limite d’invite du nouveau modèle est de 100 000 jetons, soit environ l’équivalent de 75 000 mots. L’interface utilisateur du site indique que les utilisateurs peuvent télécharger des documents PDF, TXT, CSV et similaires pour l’analyse, mais cette fonctionnalité n’a pas fonctionné lors de nos tests limités avant la publication de cet article.