ChatGPT a impressionné des millions de personnes avec sa capacité à enchaîner des phrases, des textes de présentation, des scripts cohérents, parfois même précis, et bien plus encore. Pour écrire comme un humain, le bot AI a été formé avec des algorithmes d’apprentissage automatique sur un catalogue massif de matériel récuré sur le Web. Mais le développement de ChatGPT n’a pas été entièrement automatisé : il a fallu du travail humain pour empêcher ChatGPT de tomber dans le même piège que son prédécesseur GPT-3, qui était capable de rendre des contenus inappropriés, voire racistes. (s’ouvre dans un nouvel onglet)commentaires.
Selon une récente enquête de Time (s’ouvre dans un nouvel onglet)le créateur de ChatGPT, OpenAI, a externalisé cette tâche de traitement de données peu recommandable à des travailleurs kenyans, dont beaucoup gagneraient moins de 2 $ de l’heure.
ChatGPT est formé sur des ensembles de données d’une taille si immense qu’ils ne peuvent pas être soigneusement conservés à la main, tout comme les outils de génération d’images tels que DALL-E (également exploité par OpenAI), Stable Diffusion et Midjourney. Sans formation, ChatGPT ne fonctionnerait pas du tout, mais tout le texte que vous pouvez trouver sur Internet ne mène pas au type de commentaires que vous souhaitez que votre bot AI fasse.
Le travail externalisé consistait à étiqueter des exemples du type de texte offensant susceptible d’apparaître dans le matériel de formation. Une collection de ces échantillons de texte étiquetés a ensuite été introduite dans une autre IA, l’entraînant à remarquer et à supprimer un texte offensant similaire des réponses de ChatGPT aux utilisateurs.
La formation de l’IA pour éviter un langage et des thèmes inappropriés garde ChatGPT plus propre et le rend plus difficile à utiliser pour produire du contenu dérangeant. Mais dans cet effort pour améliorer le bot, OpenAI a exposé les travailleurs mal rémunérés du Kenya à certains des pires contenus sur le Web.
« Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers d’extraits de texte à une entreprise de sous-traitance au Kenya, à partir de novembre 2021 », rapporte Time. « Une grande partie de ce texte semble avoir été tirée des recoins les plus sombres d’Internet. Certains d’entre eux décrivaient des situations en détail comme l’abus sexuel d’enfants, la bestialité, le meurtre, le suicide, la torture, l’automutilation et l’inceste. »
Le rapport Time indique qu’un travailleur a souffert de visions récurrentes en raison du contenu qu’il a rencontré au travail. Les quatre travailleurs avec lesquels Time s’est entretenu ont déclaré qu’ils étaient « marqués mentalement par le travail ».
Il y aurait eu environ 36 travailleurs employés pour effectuer la tâche au nom d’OpenAI, chacun devant « lire et étiqueter entre 150 et 250 passages de texte par quart de travail de neuf heures ».
L’entreprise responsable de l’externalisation s’appelle Sama, une entreprise basée à San Francisco avec des travailleurs au Kenya, en Ouganda et en Inde. Time rapporte qu’OpenAI a signé trois contrats pour les travaux d’étiquetage fin 2021, d’une valeur totale d’environ 200 000 dollars.
Sama dit que ses employés avaient accès à des séances individuelles et de groupe avec des thérapeutes professionnels en santé mentale, accessibles à tout moment. Cependant, les travailleurs auxquels Time a parlé disent que seules des séances de groupe leur étaient accessibles.
« Notre mission est de garantir que l’intelligence artificielle générale profite à toute l’humanité, et nous travaillons dur pour construire des systèmes d’IA sûrs et utiles qui limitent les préjugés et les contenus préjudiciables », a déclaré un porte-parole d’OpenAI à Time concernant le travail de traitement de données externalisé. « Classer et filtrer les nuisibles [text and images] est une étape nécessaire pour minimiser la quantité de contenus violents et sexuels inclus dans les données de formation et créer des outils capables de détecter les contenus préjudiciables. »
Selon Time, la nature du travail de Sama pour OpenAI a pris une tournure différente en février 2022 lorsqu’il a commencé à collecter des « images sexuelles et violentes », dont certaines seraient considérées comme illégales aux États-Unis. OpenAI a déclaré que l’étiquetage des images nuisibles était « une étape nécessaire » pour rendre ses outils sûrs à utiliser, mais qu’il n’a jamais voulu que la catégorie d’images la plus extrême soit collectée par Sama et qu’il s’agissait d’une mauvaise communication.
Sama a finalement résilié son contrat avec OpenAI de manière anticipée. Le rapport suggère que l’équipe de Sama a soulevé des inquiétudes concernant le contenu des images, ce qui a finalement conduit à l’effondrement de l’accord entre les deux sociétés. Dans la foulée, certains des travailleurs de Sama ont été transférés à des contrats moins rémunérés ou leurs postes ont été entièrement résiliés. Le rapport à temps plein (s’ouvre dans un nouvel onglet) va dans beaucoup plus de détails sur la relation d’OpenAI avec Sama.
OpenAI est actuellement évalué à des milliards de dollars. Microsoft chercherait à injecter plus d’argent dans la société d’intelligence artificielle, malgré ses propres licenciements massifs récents, et a annoncé son intention d’intégrer les technologies OpenAI dans ses services.
Le travail de modération implique depuis longtemps un certain degré de souffrance humaine : un rapport de 2019 (s’ouvre dans un nouvel onglet) sur le bien-être mental des employés des équipes de modération utilisées par Facebook a décrit des symptômes de traumatisme de longue durée à la suite du travail.
Les besoins d’étiquetage d’OpenAI sont également une facette d’une crise éthique plus large qui se développe au centre de la recherche sur l’IA : le problème de savoir quoi utiliser comme matériel de formation. Les machines ne peuvent pas apprendre à se comporter comme des humains sans matériel créé par l’homme, mais tout le monde ne veut pas que leur travail soit alimenté par un algorithme, et l’année dernière, les artistes ont commencé à étiqueter leur travail « pas d’IA » dans le but d’éloigner les entreprises qui collectent des données de formation pour les générateurs d’images. Voici maintenant le problème inverse : le matériel que les fabricants de robots ne pas veulent influencer leur IA. Encore une fois, la tâche d’élever des bots d’IA respectueux revient aux gens, dans ce cas des travailleurs payés pour lire le contenu le plus dérangeant du Web.