Dans de nombreux cas, les IA sont formées à partir de matériel créé ou organisé par des humains. Il peut donc s’avérer très difficile d’empêcher l’IA de reproduire les préjugés de ces humains et de la société à laquelle ils appartiennent. Et les enjeux sont élevés, étant donné que nous utilisons les IA pour prendre des décisions médicales et financières.
Mais certains chercheurs de l’Université de Washington à Saint-Louis ont découvert un autre problème à résoudre : les personnes qui suivent la formation peuvent potentiellement modifier leur comportement lorsqu’elles savent que cela peut influencer les choix futurs de l’IA. Et, dans certains cas au moins, elles transposent ces changements de comportement dans des situations qui n’impliquent pas de formation de l’IA.
Voulez-vous jouer à un jeu ?
Le travail consistait à faire participer des volontaires à une forme simple de théorie des jeux. Les testeurs ont donné à deux participants une somme d’argent – 10 $ dans ce cas. L’un des deux participants a ensuite été invité à offrir une fraction de cette somme à l’autre, qui pouvait choisir d’accepter ou de rejeter l’offre. Si l’offre était rejetée, personne ne recevait d’argent.
D’un point de vue purement économique, les gens devraient accepter toute offre qui leur est faite, car ils se retrouveront avec plus d’argent qu’ils n’en auraient eu autrement. Mais en réalité, les gens ont tendance à rejeter les offres qui s’écartent trop du partage 50/50, car ils ont le sentiment qu’un partage très déséquilibré est injuste. Leur rejet leur permet de punir la personne qui a fait l’offre injuste. Bien qu’il existe certaines différences culturelles quant au moment où le partage devient injuste, cet effet a été reproduit à de nombreuses reprises, y compris dans le travail actuel.
La particularité de ce nouveau travail, réalisé par Lauren Treiman, Chien-Ju Ho et Wouter Kool, est qu’ils ont dit à certains participants que leur partenaire était une IA et que les résultats de leurs interactions avec elle seraient réinjectés dans le système pour entraîner ses performances futures.
Cette approche reprend un principe implicite dans une configuration purement axée sur la théorie des jeux (le fait que le rejet d’offres peut aider les partenaires à déterminer quels types d’offres sont équitables) et le rend très explicite. Les participants, ou du moins le sous-ensemble impliqué dans le groupe expérimental à qui on dit qu’ils entraînent une IA, pourraient facilement déduire que leurs actions influenceraient les futures offres de l’IA.
Les chercheurs se sont demandé si cela pouvait influencer le comportement des participants humains. Ils ont comparé ce résultat au comportement d’un groupe témoin qui avait simplement participé au test standard de théorie des jeux.
Equité de la formation
Treiman, Ho et Kool avaient pré-enregistré un certain nombre d’analyses multivariées qu’ils prévoyaient d’effectuer avec les données. Mais celles-ci n’ont pas toujours produit de résultats cohérents d’une expérience à l’autre, peut-être parce qu’il n’y avait pas assez de participants pour faire ressortir des effets relativement subtils avec une quelconque confiance statistique et peut-être parce que le nombre relativement important de tests signifiait que quelques résultats positifs se produiraient par hasard.
Nous allons donc nous concentrer sur la question la plus simple qui a été abordée : le fait d’être informé que vous entraîniez une IA a-t-il modifié le comportement de quelqu’un ? Cette question a été posée dans le cadre de plusieurs expériences très similaires. (L’une des principales différences entre elles était de savoir si les informations concernant l’entraînement de l’IA étaient affichées avec une icône en forme d’appareil photo, car les personnes modifient parfois leur comportement si elles savent qu’elles sont observées.)
La réponse à cette question est un oui clair : les gens vont en effet changer leur comportement lorsqu’ils pensent qu’ils entraînent une IA. Au cours de plusieurs expériences, les participants étaient plus susceptibles de rejeter des offres injustes si on leur disait que leurs sessions seraient utilisées pour entraîner une IA. Dans quelques-unes de ces expériences, ils étaient également plus susceptibles de rejeter des offres considérées comme équitables (dans les populations américaines, le taux de rejet augmente considérablement dès que quelqu’un propose un partage 70/30, ce qui signifie que 7 $ reviennent à la personne qui fait la proposition dans ces expériences). Les chercheurs soupçonnent que cela est dû au fait que les gens sont plus susceptibles de rejeter des offres à la limite de l’« équitable », comme un partage 60/40.
Cela s’est produit même si le rejet de toute offre entraîne un coût économique pour les participants. Et les participants ont persisté dans ce comportement même lorsqu’on leur a dit qu’ils n’interagiraient plus jamais avec l’IA une fois la formation terminée, ce qui signifie qu’ils ne bénéficieraient pas personnellement d’un quelconque changement dans le comportement de l’IA. Il semble donc que les participants soient prêts à faire un sacrifice financier pour former l’IA d’une manière qui profiterait aux autres.
Il est frappant de constater que dans deux des trois expériences qui ont suivi les tests, les participants ont continué à rejeter les offres à un taux plus élevé deux jours après leur participation à l’entraînement de l’IA, même lorsqu’on leur a dit que leurs actions n’étaient plus utilisées pour entraîner l’IA. Ainsi, dans une certaine mesure, la participation à l’entraînement de l’IA semble les avoir amenés à s’entraîner à se comporter différemment.
Bien entendu, cela n’affectera pas tous les types de formation d’IA, et une grande partie du travail consacré à la production de matériel utilisé pour la formation d’un modèle de langage de grande taille, par exemple, n’aura pas été réalisée en sachant qu’il pourrait être utilisé pour former une IA. Néanmoins, il existe de nombreux cas où les humains s’impliquent plus directement dans la formation, il convient donc de savoir qu’il s’agit là d’une autre voie par laquelle des biais peuvent s’infiltrer.
PNAS2024. DOI : 10.1073/pnas.2408731121 (À propos des DOI).