ChatGPT a un nouveau challenger à surveiller sous la forme de Claude 2, présenté par ses créateurs comme un « collègue ou assistant personnel amical et enthousiaste ».
Anthropic, société d’intelligence artificielle basée à San Francisco, a lancé la deuxième génération de son chatbot de génération de langage naturel, frappant le marché avec l’affirmation audacieuse qu’il est plus intelligent que 90 % des étudiants aux États-Unis et au Canada.
Selon Anthropic, Claude 2 est plus performant, peut donner des réponses plus longues et présente des améliorations en matière de codage, de mathématiques et de raisonnement. Claude 2 peut également gérer 100 jetons d’entrée ou de sortie, ce qui équivaut à jusqu’à 75 000 mots d’informations, ce qui signifie qu’il peut traiter et générer n’importe quoi, des questions simples aux rapports complexes.
Dans le monde réel, Anthropic dit que Claude 2 a obtenu 76,5% à la section à choix multiples de l’examen du barreau, contre 73,0% avec Claude 1,3, et des scores supérieurs au 90e centile aux examens de lecture et d’écriture du GRE par rapport aux étudiants postulant pour obtenir leur diplôme. école.
Je l’ai essayé
L’utilisation de Claude 2 est assez simple et étant donné qu’Anthropic veut accorder une licence au chatbot aux entreprises, cela ne devrait peut-être pas être surprenant. Cependant dans le peu de temps où je l’ai utilisé, Claude 2 a su répondre rapidement à mes questions.
Il a également semblé se souvenir de la façon dont j’aime que mes informations soient présentées, optant pour une série de puces pour toutes les questions futures après l’avoir posée pour simplifier une longue réponse.
Claude 2 a apparemment amélioré ses compétences en codage, obtenant 71,2 % au test de codage Python, le Codex HumanEval, alors que la première génération ne pouvait atteindre que 56,0 %. Sur GSM8k, un large ensemble de problèmes de mathématiques pour les écoles primaires, Claude 2 a obtenu un score de 88,0 % contre 85,2 %.
Anthropic a également déclaré qu' »une feuille de route passionnante d’améliorations des capacités » est prévue pour Claude 2. Si vous souhaitez tester ces capacités, Anthropic a lancé une version bêta publique de Claude 2 pour les résidents des États-Unis et du Royaume-Uni.
Dans l’ensemble, l’expérience est simple. Les réponses que j’ai reçues étaient correctes et personnalisées, mais il sera intéressant de voir jusqu’où nous pouvons tester Claude avec plus de temps.
De nouvelles techniques de sécurité
Le nouveau chatbot est l’un des premiers à tirer parti des nouvelles techniques de sécurité annoncées par Anthropic l’année dernière, afin d’améliorer les résultats et de prévenir les utilisations dangereuses de l’IA générative.
Ces techniques incluent des modèles de formation avec apprentissage par renforcement à partir de la rétroaction humaine (RLHF) afin que Claude 2 ait la capacité de « s’autocorriger moralement », ainsi que l’IA constitutionnelle, qui peut identifier une demande inappropriée et expliquer pourquoi elle ne s’engagera pas avec le demande.
En conséquence, Claude 2 est deux fois meilleur pour donner des réponses inoffensives que Claude 1.3, son prédécesseur.
L’effort visant à rendre les chatbots plus sûrs à utiliser peut plaire aux organismes gouvernementaux qui se concentrent de plus en plus sur les risques potentiels liés à la montée en puissance des modèles d’IA générative comme les chatbots et les deepfakes.
La Maison Blanche a présenté un plan directeur pour la réglementation de l’IA couvrant des domaines tels que les préjugés, la confidentialité et la désinformation. En Europe, l’UE a proposé des règles plus strictes pour les systèmes d’IA à haut risque, avec des garanties de transparence et de surveillance, et la FTC a également averti les entreprises d’empêcher la tromperie de l’IA générative, citant les lois sur la vérité dans la publicité.
Les régulateurs au Royaume-Uni, en Australie et ailleurs ont également fait part de leurs inquiétudes concernant les données personnelles utilisées pour former des modèles et leur utilisation abusive générant des contenus préjudiciables, les législateurs envisageant de nouvelles lois pour empêcher la diffusion de fausses informations, la fraude par usurpation d’identité et d’autres préjudices.
La précision a été au centre des préoccupations des législateurs et des régulateurs depuis la sortie de ChatGPT fin 2022, et a rassemblé plus d’un million d’utilisateurs qui s’étaient inscrits pour essayer le chatbot AI. Inspirés par sa popularité, d’autres géants de la technologie ont lancé leurs propres modèles de langage génératif massifs comme Bard de Google, SoundDrown de Meta et Bing Chat de Microsoft. De plus petites startups se joignent également à la course pour proposer des applications d’IA génératives créatives pour l’écriture, l’art et le codage.