Anthropic a construit un chatbot IA démocratique en permettant aux utilisateurs de voter pour ses valeurs

Dans ce qui pourrait être la première étude du genre, la société d’intelligence artificielle (IA) Anthropic a développé un grand modèle de langage (LLM) qui a été affiné pour les jugements de valeur de sa communauté d’utilisateurs.

De nombreux LLM destinés au public ont été développés avec des garde-fous (des instructions codées dictant un comportement spécifique) dans le but de limiter les sorties indésirables. Claude d’Anthropic et ChatGPT d’OpenAI, par exemple, offrent généralement aux utilisateurs une réponse de sécurité prédéfinie aux demandes de sortie liées à des sujets violents ou controversés.

Cependant, comme l’ont souligné d’innombrables experts, les garde-fous et autres techniques d’intervention peuvent servir à priver les utilisateurs de leur agence. Ce qui est considéré comme acceptable n’est pas toujours utile, et ce qui est considéré comme utile n’est pas toujours acceptable. Et les définitions de la moralité ou des jugements fondés sur des valeurs peuvent varier selon les cultures, les populations et les périodes.

En rapport: Le Royaume-Uni ciblera les menaces potentielles de l’IA lors du sommet prévu en novembre

Une solution possible à ce problème consiste à permettre aux utilisateurs de dicter l’alignement des valeurs pour les modèles d’IA. L’expérience « Collective Constitutional AI » d’Anthropic est une tentative de relever ce « défi compliqué ».

Anthropic, en collaboration avec Polis et Collective Intelligence Project, a interrogé 1 000 utilisateurs issus de divers groupes démographiques et leur a demandé de répondre à une série de questions via un sondage.

Source, Anthropique

Le défi consiste à permettre aux utilisateurs de l’agence de déterminer ce qui est approprié sans les exposer à des résultats inappropriés. Cela impliquait de solliciter les valeurs des utilisateurs, puis de mettre en œuvre ces idées dans un modèle déjà formé.

Anthropic utilise une méthode appelée « IA constitutionnelle » pour direct ses efforts pour améliorer la sécurité et l’utilité des LLM. Essentiellement, cela implique de donner au modèle une liste de règles qu’il doit respecter, puis de le former à mettre en œuvre ces règles tout au long de son processus, un peu comme une constitution sert de document de base pour la gouvernance dans de nombreux pays.

Dans l’expérience Collective Constitutional AI, Anthropic a tenté d’intégrer les commentaires basés sur le groupe dans la constitution du modèle. Les résultats, selon Selon un article de blog d’Anthropic, semblent avoir été un succès scientifique dans la mesure où ils ont mis en lumière d’autres défis pour atteindre l’objectif consistant à permettre aux utilisateurs d’un produit LLM de déterminer leurs valeurs collectives.

L’une des difficultés que l’équipe a dû surmonter a été de trouver une nouvelle méthode pour le processus d’analyse comparative. Comme cette expérience semble être la première du genre et qu’elle s’appuie sur la méthodologie d’IA constitutionnelle d’Anthropic, il n’existe pas de test établi pour comparer les modèles de base à ceux optimisés avec des valeurs issues du crowdsourcing.

En fin de compte, il semble que le modèle qui a mis en œuvre les données résultant des commentaires des utilisateurs interrogés a surpassé « légèrement » le modèle de base dans le domaine des résultats biaisés.

Selon le billet de blog :

« Plus que le modèle résultant, nous sommes enthousiasmés par le processus. Nous pensons qu’il s’agit peut-être de l’un des premiers cas dans lesquels des membres du public ont, en tant que groupe, intentionnellement dirigé le comportement d’un grand modèle linguistique. Nous espérons que les communautés du monde entier s’appuieront sur des techniques comme celle-ci pour former des modèles spécifiques à la culture et au contexte qui répondent à leurs besoins.