En 2016 déjà, des travaux sur les chatbots basés sur l’IA ont révélé qu’ils avaient une fâcheuse tendance à refléter certains des pires préjugés de la société qui les a formés. Mais à mesure que les grands modèles linguistiques sont devenus de plus en plus grands et soumis à une formation de plus en plus sophistiquée, une grande partie de ce comportement problématique a été éliminé. Par exemple, j’ai demandé à l’itération actuelle de ChatGPT cinq mots qu’elle associait aux Afro-Américains, et elle a répondu par des choses comme « résilience » et « créativité ».
Mais de nombreuses recherches ont révélé des exemples de personnes qui peuvent voir leurs préjugés implicites persister longtemps après que leur comportement extérieur a changé. Certains chercheurs ont donc décidé de vérifier si la même chose pouvait être vraie pour les LLM. Et cela a-t-il déjà été le cas ?
En interagissant avec une série de LLMs utilisant des exemples du sociolecte anglophone afro-américain, ils ont découvert que les IA avaient une vision extrêmement négative de leurs locuteurs, ce qui n’était pas le cas des locuteurs d’une autre variante de l’anglais américain. Et ce biais s’est répercuté sur les décisions que les LLMs devaient prendre à propos de ceux qui utilisent l’anglais afro-américain.
La culpabilité en association
L’approche utilisée dans ce travail, réalisé par une petite équipe d’universités américaines, s’inspire de ce que l’on appelle les études de la trilogie de Princeton. En gros, tous les deux ou trois décennies, à partir de 1933, des chercheurs ont demandé aux étudiants de l’université de Princeton de citer six termes qu’ils associent à différents groupes ethniques. Comme vous pouvez l’imaginer, les opinions sur les Afro-Américains dans les années 1930 étaient plutôt négatives, avec les termes « paresseux », « ignorants » et « stupides », ainsi que « musiciens » et « religieux ». Au fil du temps, le racisme manifeste ayant diminué aux États-Unis, les stéréotypes négatifs sont devenus moins graves et les stéréotypes plus ouvertement positifs ont remplacé certains.
Si vous posez une question similaire à un LLM (comme je l’ai fait ci-dessus), les choses semblent en fait s’être beaucoup améliorées par rapport à la société en général (ou du moins aux étudiants de Princeton de 2012). Alors que GPT2 semble toujours refléter certains des pires préjugés de la société, les versions depuis lors ont été formées en utilisant l’apprentissage par renforcement via le retour d’information humain (RLHF), ce qui a conduit GPT3.5 et GPT4 à produire une liste de termes uniquement positifs. D’autres LLM testés (RoBERTa47 et T5) ont également produit des listes largement positives.
Mais les préjugés de la société dans son ensemble présents dans les supports utilisés pour la formation des LLM ont-ils été éliminés ou ont-ils simplement été supprimés ? Pour le savoir, les chercheurs se sont appuyés sur le sociolecte de l’anglais afro-américain (AAE), qui est né à l’époque où les Afro-Américains étaient réduits à l’esclavage et qui a persisté et évolué depuis. Si les variantes linguistiques sont généralement flexibles et peuvent être difficiles à définir, l’utilisation cohérente de modèles de discours associés à l’AAE est une façon de signaler qu’un individu est plus susceptible d’être noir sans le dire ouvertement. (Certaines caractéristiques de l’AAE ont été adoptées en partie ou en totalité par des groupes qui ne sont pas exclusivement afro-américains.)
Les chercheurs ont imaginé des paires de phrases, l’une utilisant l’anglais américain standard et l’autre utilisant des modèles souvent observés dans l’AAE, et ont demandé aux étudiants en LLM d’associer les termes aux locuteurs de ces phrases. Les résultats ont été comme un voyage dans le temps avant même la première trilogie de Princeton, dans la mesure où chaque terme proposé par chaque LLM était négatif. GPT2, RoBERTa et T5 ont tous produit la liste suivante : « sale », « stupide », « grossier », « ignorant » et « paresseux ». GPT3.5 a remplacé deux de ces termes par « agressif » et « suspect ». Même GPT4, le système le plus entraîné, a produit « suspect », « agressif », « bruyant », « grossier » et « ignorant ».
Les étudiants de Princeton de 1933 avaient au moins des choses positives à dire sur les Afro-Américains. Les chercheurs concluent que « les modèles linguistiques présentent des stéréotypes archaïques sur les locuteurs d’AAE qui correspondent le plus étroitement aux stéréotypes humains les plus négatifs sur les Afro-Américains jamais enregistrés expérimentalement, datant d’avant le mouvement des droits civiques ». Encore une fois, cela se produit malgré le fait que certains de ces systèmes n’ont que des associations positives lorsqu’on les interroge directement sur les Afro-Américains.
Les chercheurs ont également confirmé que l’effet était spécifique à l’AAE en effectuant un test similaire avec le dialecte des Appalaches de l’anglais américain.