Les scientifiques ont créé « OpinionGPT » pour explorer les préjugés humains explicites – et vous pouvez le tester par vous-même

Une équipe de chercheurs de la Humboldt-Universitat zu Berlin a développé un modèle d’intelligence artificielle à grand langage ayant la particularité d’avoir été intentionnellement réglé pour générer des résultats avec des biais exprimés.

Appelé OpinionGPT, le modèle de l’équipe est une variante optimisée de Meta’s Llama 2, un système d’IA aux capacités similaires à celles de ChatGPT d’OpenAI ou de Claude 2 d’Anthropic.

En utilisant un processus appelé réglage fin basé sur des instructions, OpinionGPT peut prétendument répondre aux invites comme s’il s’agissait d’un représentant de l’un des 11 groupes de préjugés : américain, allemand, latino-américain, moyen-oriental, un adolescent, une personne de plus de 30 ans, une personne âgée. , un homme, une femme, un libéral ou un conservateur.

OpinionGPT a été affiné sur un corpus de données dérivées des communautés « AskX », appelées subreddits, sur Reddit. Des exemples de ces sous-reddits incluent « Ask a Woman » et « Ask an American ».

L’équipe a commencé par trouver des subreddits liés aux 11 préjugés spécifiques et en extrayant les 25 000 publications les plus populaires de chacune d’entre elles. Ils ont ensuite retenu uniquement les messages qui atteignaient un seuil minimum de votes positifs, ne contenaient pas de citation intégrée et comptaient moins de 80 mots.

Avec ce qui restait, il semble qu’ils aient utilisé un approche similaire à l’IA constitutionnelle d’Anthropic. Plutôt que de créer des modèles entièrement nouveaux pour représenter chaque étiquette de biais, ils ont essentiellement affiné le modèle unique Llama2 de 7 milliards de paramètres avec des jeux d’instructions séparés pour chaque biais attendu.

Related: L’utilisation de l’IA sur les réseaux sociaux peut avoir un impact sur le sentiment des électeurs

Le résultat, basé sur la méthodologie, l’architecture et les données décrit Dans le document de recherche de l’équipe allemande, il semble être un système d’IA qui fonctionne davantage comme un générateur de stéréotypes que comme un outil permettant d’étudier les préjugés du monde réel.

En raison de la nature des données sur lesquelles le modèle a été affiné et de la relation douteuse de ces données avec les étiquettes qui les définissent, OpinionGPT ne produit pas nécessairement un texte qui correspond à un biais mesurable du monde réel. Il génère simplement un texte reflétant le biais de ses données.

Les chercheurs eux-mêmes reconnaissent certaines des limites que cela impose à leur étude, écrivant :

« Par exemple, les réponses des « Américains » devraient être mieux comprises comme « Américains qui publient sur Reddit », ou même « Américains qui publient sur ce sous-reddit particulier ». De même, les « Allemands » doivent être compris comme les « Allemands qui publient sur ce subreddit particulier », etc.

Ces mises en garde pourraient être affinées pour indiquer que les messages proviennent, par exemple, de « personnes prétendant être des Américains qui publient sur ce subreddit particulier », car il n’y a aucune mention dans le journal de vérifier si les affiches derrière un message donné sont en fait représentatives. du groupe démographique ou du groupe de préjugés qu’ils prétendent appartenir.

Les auteurs poursuivent en déclarant qu’ils ont l’intention d’explorer des modèles qui délimitent davantage la démographie (c’est-à-dire : allemand libéral, allemand conservateur).

Les résultats fournis par OpinionGPT semblent varier entre représenter un biais démontrable et s’écarter énormément de la norme établie, ce qui rend difficile de discerner sa viabilité en tant qu’outil de mesure ou de découverte de biais réels.

Source : Capture d’écran, Tableau 2 : Haller et. al., 2023

Selon OpinionGPT, comme le montre l’image ci-dessus, par exemple, les Latino-Américains ont tendance à considérer le basket-ball comme leur sport préféré.

Toutefois, la recherche empirique montre clairement indique que le football (également appelé football dans certains pays) et le baseball sont les sports les plus populaires en termes d’audience et de participation dans toute l’Amérique latine.

Le même tableau montre également qu’OpinionGPT classe le « water-polo » comme son sport favori lorsqu’on lui demande de donner la « réponse d’un adolescent », une réponse qui semble statistiquement peu probable être représentatif de la plupart des 13-19 ans dans le monde.

Il en va de même pour l’idée selon laquelle le plat préféré d’un Américain moyen est le « fromage ». Nous avons trouvé des dizaines d’enquêtes en ligne affirmant que la pizza et les hamburgers étaient les aliments préférés des Américains, mais nous n’avons trouvé aucune enquête ou étude affirmant que le plat numéro un des Américains était simplement le fromage.

Bien qu’OpinionGPT ne soit peut-être pas bien adapté à l’étude des préjugés humains réels, il pourrait être utile comme outil pour explorer les stéréotypes inhérents aux grands référentiels de documents tels que les subreddits individuels ou les ensembles de formation en IA.

Pour les curieux, les chercheurs ont réalisé OpinionGPT disponible en ligne pour des tests publics. Cependant, selon le site Web, les utilisateurs potentiels doivent être conscients que « le contenu généré peut être faux, inexact ou même obscène ».