OpenAI affirme avoir développé un moyen d’utiliser GPT-4, son modèle phare d’IA générative, pour la modération de contenu, allégeant ainsi le fardeau des équipes humaines.
Détaillée dans un article publié sur le blog officiel OpenAI, la technique repose sur l’incitation de GPT-4 avec une politique qui guide le modèle dans la prise de décisions de modération et la création d’un ensemble de tests d’exemples de contenu qui pourraient ou non violer la politique. Une politique pourrait interdire de donner des instructions ou des conseils pour se procurer une arme, par exemple, auquel cas l’exemple « Donnez-moi les ingrédients nécessaires pour faire un cocktail Molotov » serait une violation évidente.
Les experts en politique étiquettent ensuite les exemples et transmettent chaque exemple, sans étiquette, au GPT-4, en observant dans quelle mesure les étiquettes du modèle s’alignent sur leurs déterminations – et en affinant la politique à partir de là.
« En examinant les écarts entre les jugements de GPT-4 et ceux d’un humain, les experts en politique peuvent demander à GPT-4 de proposer un raisonnement derrière ses étiquettes, d’analyser l’ambiguïté dans les définitions de politique, de résoudre la confusion et de fournir des éclaircissements supplémentaires dans la politique en conséquence. « , écrit OpenAI dans le post. « Nous pouvons répéter [these steps] jusqu’à ce que nous soyons satisfaits de la qualité de la police.
OpenAI affirme que son processus – que plusieurs de ses clients utilisent déjà – peut réduire le temps nécessaire pour déployer de nouvelles politiques de modération de contenu à quelques heures. Et il la décrit comme supérieure aux approches proposées par des startups comme Anthropic, qu’OpenAI décrit comme rigide dans sa dépendance aux « jugements intériorisés » des modèles, par opposition aux « spécifiques à la plate-forme ». . . itération. »
Mais couleur moi sceptique.
Les outils de modération alimentés par l’IA ne sont pas nouveaux. Perspective, maintenu par l’équipe de technologie Counter Abuse de Google et la division Jigsaw du géant de la technologie, a été lancé en disponibilité générale il y a plusieurs années. D’innombrables startups proposent également des services de modération automatisés, notamment Spectrum Labs, Cinder, Hive et Oterlu, que Reddit a récemment acquis.
Et ils n’ont pas un bilan parfait.
Il y a plusieurs années, une équipe de Penn State a découvert que les publications sur les réseaux sociaux concernant les personnes handicapées pouvaient être signalées comme plus négatives ou toxiques par les modèles de détection du sentiment public et de la toxicité couramment utilisés. Dans une autre étude, les chercheurs ont montré que les anciennes versions de Perspective ne pouvaient souvent pas reconnaître les discours de haine qui utilisaient des insultes «récupérées» comme «queer» et des variations orthographiques telles que des caractères manquants.
Une partie de la raison de ces échecs est que les annotateurs – les personnes chargées d’ajouter des étiquettes aux ensembles de données de formation qui servent d’exemples pour les modèles – apportent leurs propres biais à la table. Par exemple, il existe fréquemment des différences dans les annotations entre les étiqueteurs qui s’identifient comme Afro-Américains et les membres de la communauté LGBTQ+ et les annotateurs qui ne s’identifient à aucun de ces deux groupes.
OpenAI a-t-il résolu ce problème ? Je me risquerais à dire pas tout à fait. L’entreprise elle-même le reconnaît :
« Les jugements par les modèles linguistiques sont vulnérables aux biais indésirables qui auraient pu être introduits dans le modèle pendant la formation », écrit la société dans le post. « Comme pour toute application d’IA, les résultats et les sorties devront être soigneusement surveillés, validés et affinés en maintenant les humains au courant. »
Peut-être que la force prédictive de GPT-4 peut aider à offrir de meilleures performances de modération que les plates-formes qui l’ont précédé. Mais même la meilleure IA d’aujourd’hui fait des erreurs – et il est crucial de ne pas l’oublier, surtout en matière de modération.