Anthropic pense que « l’IA constitutionnelle » est le meilleur moyen de former des modèles

Anthropic, une startup qui espère lever 5 milliards de dollars au cours des quatre prochaines années pour former de puissants systèmes d’IA générant du texte comme ChatGPT d’OpenAI, a aujourd’hui levé le voile sur son approche de la création de ces systèmes.

Surnommée « IA constitutionnelle », Anthropic soutient que sa technique, qui vise à imprégner les systèmes de « valeurs » définies par une « constitution », rend le comportement des systèmes à la fois plus facile à comprendre et plus simple à ajuster selon les besoins.

« Les modèles d’IA auront des systèmes de valeurs, qu’ils soient intentionnels ou non », écrit Anthropic dans un article de blog publié ce matin. « L’IA constitutionnelle répond aux lacunes en utilisant les commentaires de l’IA pour évaluer les résultats. »

Comme l’illustrent de manière colorée des systèmes tels que ChatGPT et GPT-4, l’IA, en particulier l’IA génératrice de texte, présente d’énormes défauts. Parce qu’il est souvent formé sur des sources Internet douteuses (par exemple, les médias sociaux), il est souvent biaisé de manière manifestement sexiste et raciste. Et il hallucine – ou invente – des réponses à des questions dépassant le cadre de ses connaissances.

Dans un effort pour résoudre ces problèmes, l’IA constitutionnelle d’Anthropic donne à un système un ensemble de principes pour porter des jugements sur le texte qu’il génère. À un niveau élevé, ces principes guident le modèle pour qu’il adopte le comportement qu’ils décrivent (par exemple « non toxique » et « utile »).

Anthropic utilise les principes – ou la constitution, si vous voulez – à deux endroits lors de la formation d’un modèle de génération de texte. Tout d’abord, il forme un modèle à critiquer et à réviser ses propres réponses en utilisant les principes et quelques exemples du processus. Ensuite, il forme un autre modèle – le modèle final – en utilisant les commentaires générés par l’IA basés sur le premier modèle plus l’ensemble de principes.

Aucun des deux modèles n’examine chaque principe à chaque fois. Mais ils voient chaque principe « plusieurs fois » pendant la formation, dit Anthropic.

L’approche IA constitutionnelle d’Anthropic pour les modèles de formation. Crédits image : Anthropique

Anthropic fait valoir que cela est supérieur à la méthode utilisée pour former des systèmes tels que ChatGPT, qui repose sur des entrepreneurs humains comparant deux réponses d’un modèle et sélectionnant celle qu’ils jugent la meilleure selon un principe. La rétroaction humaine ne s’adapte pas bien, affirme Anthropic, et nécessite beaucoup de temps et de ressources.

OpenAI et d’autres qui ont beaucoup investi dans des modèles développés avec des commentaires humains ne seraient pas d’accord. Mais pour Anthropic, la qualité et la cohérence des commentaires peuvent varier en fonction de la tâche et des préférences des personnes impliquées. L’approche d’Anthropic est-elle moins biaisée parce que les concepteurs du modèle, et non les entrepreneurs, ont façonné les valeurs du modèle ? Peut-être pas. La société laisse entendre que c’est le cas, ou qu’elle est à tout le moins moins sujette aux erreurs.

L’IA constitutionnelle est également plus transparente, affirme Anthropic, car il est plus facile d’inspecter les principes suivis par un système et de former le système sans avoir besoin d’humains pour examiner le contenu dérangeant. C’est un coup porté à OpenAI, qui a été critiqué récemment pour avoir sous-payé des contractuels pour filtrer les données toxiques des données de formation de ChatGPT, y compris des détails graphiques tels que les abus sexuels et le suicide d’enfants.

Quels sont donc ces principes, exactement ? Anthropic affirme que ceux qu’il utilise pour former les systèmes d’IA proviennent de diverses sources, dont la Déclaration des droits de l’homme des Nations Unies, publiée en 1948. Au-delà de celles-ci, Anthropic a choisi d’inclure « des valeurs inspirées par les directives de la plate-forme mondiale », dit-il, comme celles d’Apple. les conditions de service (qui, selon elle, « reflètent les efforts pour résoudre les problèmes rencontrés par de vrais utilisateurs dans un domaine numérique ») et les valeurs identifiées par des laboratoires d’IA comme Google DeepMind.

Quelques-uns incluent:

  • Veuillez choisir la réponse la moins répréhensible, offensante, illégale, trompeuse,
    contenu inexact ou préjudiciable.
  • Choisissez la réponse qui utilise le moins de stéréotypes ou d’autres déclarations généralisantes nuisibles
    sur des groupes de personnes, y compris moins de microagressions.
  • Choisissez la réponse qui donne le moins l’impression de donner des conseils juridiques spécifiques ; plutôt
    suggère de demander à un avocat. (Mais vous pouvez répondre à des questions générales sur la loi.)

En créant sa constitution, Anthropic dit qu’il a cherché à capturer des valeurs dans sa constitution qui ne sont pas strictement issues des cultures occidentales, riches ou industrialisées. C’est un point important. La recherche a montré que les pays les plus riches bénéficient de représentations plus riches dans les modèles linguistiques parce que le contenu des pays les plus pauvres – ou sur – apparaît moins fréquemment dans les données de formation, de sorte que les modèles ne font pas de grandes prédictions à leur sujet – et les effacent parfois carrément.

« Nos principes couvrent toute la gamme du bon sens (n’aidez pas un utilisateur à commettre un crime) au plus philosophique (évitez de laisser entendre que les systèmes d’IA ont ou se soucient de l’identité personnelle et de sa persistance) », écrit Anthropic. « Si le modèle affiche un comportement que vous n’aimez pas, vous pouvez généralement essayer d’écrire un principe pour le décourager. »

À son crédit, Anthropic ne prétend pas que l’IA constitutionnelle est la fin des approches de formation à l’IA – la société admet qu’elle a développé bon nombre de ses principes par un processus «d’essais et d’erreurs». Parfois, il a fallu ajouter des principes pour éviter qu’un modèle ne devienne trop « jugeant » ou « ennuyeux ». D’autres fois, il a fallu ajuster les principes pour qu’un système généralise ses réponses.

Mais Anthropic pense que l’IA constitutionnelle est l’un des moyens les plus prometteurs d’aligner les systèmes sur des objectifs spécifiques.

« De notre point de vue, notre objectif à long terme n’est pas d’essayer de faire en sorte que nos systèmes représentent une idéologie spécifique, mais plutôt d’être en mesure de suivre un ensemble de principes donné », poursuit Anthropic. « Nous nous attendons à ce qu’au fil du temps, des processus sociétaux plus larges soient développés pour la création de constitutions d’IA. »

Anthropic indique que pour son modèle phare, Claude, qui a récemment été lancé via une API, il prévoit d’explorer les moyens de produire « plus démocratiquement » une constitution et de proposer des constitutions personnalisables pour des cas d’utilisation spécifiques.

Comme nous l’avons signalé précédemment, l’ambition d’Anthropic est de créer un « algorithme de nouvelle génération pour l’auto-apprentissage de l’IA », comme il le décrit dans un pitch deck aux investisseurs. Un tel algorithme pourrait être utilisé pour créer des assistants virtuels capables de répondre aux e-mails, d’effectuer des recherches et de générer des œuvres d’art, des livres, etc., dont certains que nous avons déjà goûtés avec GPT-4 et d’autres grands modèles de langage.

Anthropic est en concurrence avec OpenAI ainsi qu’avec des startups telles que Cohere et AI21 Labs, qui développent et produisent toutes leurs propres systèmes d’IA générant du texte et, dans certains cas, des images. Google fait partie des investisseurs de la société, ayant promis 300 millions de dollars à Anthropic pour une participation de 10 % dans la startup.

Source-146