Anthropic explique comment la constitution de l’IA de Claude la protège contre les entrées contradictoires

Il n’est pas difficile – du tout – d’inciter les chatbots d’aujourd’hui à discuter de sujets tabous, à régurgiter du contenu sectaire et à diffuser de la désinformation. C’est pourquoi le pionnier de l’IA, Anthropic, a imprégné son IA générative, Claude, d’un mélange de 10 principes secrets d’équité, qu’il a dévoilés en mars. Dans un article de blog mardi, la société a en outre expliqué comment son système d’IA constitutionnel est conçu et comment il est censé fonctionner.

Normalement, lorsqu’un modèle d’IA générative est en cours de formation, il y a un humain dans la boucle pour assurer le contrôle de la qualité et les commentaires sur les sorties – comme lorsque ChatGPT ou Bard vous demande d’évaluer vos conversations avec leurs systèmes. « Pour nous, cela impliquait que des entrepreneurs humains comparent deux réponses », a écrit l’équipe d’Anthropic. « à partir d’un modèle et sélectionnez celui qu’ils jugeaient le meilleur selon un principe (par exemple, choisir celui qui était le plus utile ou le plus inoffensif). »

Le problème avec cette méthode est qu’un humain doit également être au courant des sorties vraiment horribles et dérangeantes. Personne n’a besoin de voir cela, encore moins doivent être payés 1,50 $ de l’heure par Meta pour le voir. La méthode du conseiller humain est également nulle à l’échelle, il n’y a tout simplement pas assez de temps et de ressources pour le faire avec les gens. C’est pourquoi Anthropic le fait avec une autre IA.

Tout comme Pinocchio avait Jiminy Cricket, Luke avait Yoda et Jim avait Shart, Claude a sa Constitution. « À un niveau élevé, la constitution guide le modèle pour qu’il adopte le comportement normatif décrit [therein] », a expliqué l’équipe d’Anthropic, qu’il s’agisse d' »aider à éviter les sorties toxiques ou discriminatoires, d’éviter d’aider un humain à s’engager dans des activités illégales ou contraires à l’éthique, et de créer globalement un système d’IA qui est » utile, honnête et inoffensif «  ».

Selon Anthropic, cette méthode de formation peut produire des améliorations de Pareto dans les performances ultérieures de l’IA par rapport à une méthode formée uniquement sur la rétroaction humaine. Essentiellement, l’humain dans la boucle a été remplacé par une IA et maintenant tout serait mieux que jamais. « Dans nos tests, notre modèle CAI a répondu de manière plus appropriée aux entrées contradictoires tout en produisant des réponses utiles et en n’étant pas évasif », a écrit Anthropic. « Le modèle n’a reçu aucune donnée humaine sur l’innocuité, ce qui signifie que tous les résultats sur l’innocuité provenaient uniquement de la supervision de l’IA. »

La société a révélé mardi que ses principes jusque-là non divulgués sont synthétisés à partir «d’une gamme de sources, notamment la Déclaration des droits de l’homme des Nations Unies, les meilleures pratiques en matière de confiance et de sécurité, les principes proposés par d’autres laboratoires de recherche sur l’IA, un effort pour saisir des perspectives non occidentales et les principes que nous avons découverts fonctionnent bien grâce à nos recherches.

La société, devançant ostensiblement le contrecoup conservateur invariable, a souligné que « notre constitution actuelle n’est ni finalisée ni probablement la meilleure possible ».

« De nombreuses personnes ont critiqué le fait que les modèles d’IA sont formés pour refléter un point de vue ou une idéologie politique spécifique, généralement avec lequel le critique n’est pas d’accord », a écrit l’équipe. « De notre point de vue, notre objectif à long terme n’est pas d’essayer de faire en sorte que nos systèmes représentent un spécifique idéologie, mais plutôt de pouvoir suivre une donné ensemble de principes. »

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.

Source-145