Cette semaine dans l’IA : lutter contre le racisme dans les générateurs d’images d’IA

Suivre le rythme d’un secteur aussi en évolution rapide que l’IA est un défi de taille. En attendant qu’une IA puisse le faire à votre place, voici un tour d’horizon pratique des histoires récentes dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes seules.

Cette semaine, dans le domaine de l’IA, Google a suspendu la capacité de son chatbot Gemini à générer des images de personnes après qu’un segment d’utilisateurs se soit plaint d’inexactitudes historiques. Par exemple, pour représenter « une légion romaine », Gemini montrerait un groupe anachronique et caricatural de fantassins de races diverses tout en rendant les « guerriers zoulous » en Noir.

Il semble que Google – comme d’autres fournisseurs d’IA, dont OpenAI – ait implémenté un codage en dur maladroit sous le capot pour tenter de « corriger » les biais de son modèle. En réponse à des demandes telles que « montre-moi des images de femmes uniquement » ou « montre-moi des images d’hommes uniquement », Gemini refuserait, affirmant que de telles images pourraient « contribuer à l’exclusion et à la marginalisation des autres genres ». Les Gémeaux étaient également réticents à générer des images de personnes identifiées uniquement par leur race – par exemple « les Blancs » ou les « Noirs » – par souci apparent de « réduire les individus à leurs caractéristiques physiques ».

La droite s’est accrochée à ces bugs comme preuve d’un programme « éveillé » perpétué par l’élite technologique. Mais il n’est pas nécessaire d’avoir le rasoir d’Occam pour voir la vérité la moins néfaste : Google, brûlé par les préjugés de ses outils auparavant (voir : classer les hommes noirs comme des gorilles, confondre les pistolets thermiques dans les mains des Noirs avec des armes, etc.), est tellement désespéré pour éviter que l’histoire ne se répète et montre qu’elle manifeste un monde moins biaisé dans ses modèles générateurs d’images – aussi erronés soient-ils.

Dans son livre à succès « White Fragility », l’éducatrice antiraciste Robin DiAngelo explique comment l’effacement de la race – le « daltonisme », selon une autre expression – contribue aux déséquilibres systémiques du pouvoir racial plutôt que de les atténuer ou de les atténuer. En prétendant « ne pas voir la couleur » ou en renforçant l’idée selon laquelle le simple fait de reconnaître la lutte des personnes d’autres races suffit à se qualifier de « réveillé », les gens perpétuer nuire en évitant toute conservation substantielle sur le sujet, dit DiAngelo.

Le traitement singulier par Google des invites basées sur la race dans Gemini n’a pas évité le problème en soi – mais a tenté de manière hypocrite de dissimuler les pires préjugés du modèle. On pourrait affirmer (et beaucoup l’ont fait) que ces préjugés ne devraient pas être ignorés ou passés sous silence, mais abordés dans le contexte plus large des données de formation dont ils découlent, c’est-à-dire la société sur le World Wide Web.

Oui, les ensembles de données utilisés pour former les générateurs d’images contiennent généralement plus de Blancs que de Noirs, et oui, les images de Noirs dans ces ensembles de données renforcent les stéréotypes négatifs. C’est pourquoi les générateurs d’images sexualisent certaines femmes de couleur, représentent des hommes blancs en position d’autorité et favorisent généralement les riches perspectives occidentales.

Certains diront peut-être qu’il n’y a rien de gagnant pour les fournisseurs d’IA. Qu’ils s’attaquent – ​​ou choisissent de ne pas s’attaquer – aux préjugés des modèles, ils seront critiqués. Et c’est vrai. Mais je postule que, d’une manière ou d’une autre, ces modèles manquent d’explications – présentés d’une manière qui minimise la manière dont leurs préjugés se manifestent.

Si les fournisseurs d’IA s’attaquaient de front aux défauts de leurs modèles, dans un langage humble et transparent, cela irait bien plus loin que des tentatives aléatoires pour « corriger » ce qui est essentiellement un biais irréparable. La vérité est que nous avons tous des préjugés – et par conséquent, nous ne traitons pas les gens de la même manière. Les modèles que nous construisons non plus. Et nous ferions bien de le reconnaître.

Voici quelques autres histoires intéressantes sur l’IA de ces derniers jours :

  • Les femmes dans l’IA : TechCrunch a lancé une série mettant en lumière des femmes remarquables dans le domaine de l’IA. Lisez la liste ici.
  • Diffusion stable v3 : Stability AI a annoncé Stable Diffusion 3, la version la plus récente et la plus puissante du modèle d’IA de génération d’images de l’entreprise, basée sur une nouvelle architecture.
  • Chrome obtient GenAI : Le nouvel outil Gemini de Google dans Chrome permet aux utilisateurs de réécrire du texte existant sur le Web ou de générer quelque chose de complètement nouveau.
  • Plus noir que ChatGPT : L’agence de publicité créative McKinney a développé un jeu-questionnaire, Are You Blacker than ChatGPT ?, pour mettre en lumière les préjugés de l’IA.
  • Appels à des lois : Des centaines de sommités de l’IA ont signé une lettre publique plus tôt cette semaine appelant à une législation anti-deepfake aux États-Unis.
  • Match réalisé en IA : OpenAI a un nouveau client dans Match Group, propriétaire d’applications telles que Hinge, Tinder et Match, dont les employés utiliseront la technologie d’IA d’OpenAI pour accomplir des tâches liées au travail.
  • Sécurité DeepMind : DeepMind, la division de recherche sur l’IA de Google, a créé une nouvelle organisation, AI Safety and Alignment, composée d’équipes existantes travaillant sur la sécurité de l’IA, mais également élargie pour englober de nouvelles cohortes spécialisées de chercheurs et d’ingénieurs GenAI.
  • Modèles ouverts : À peine une semaine après le lancement de la dernière itération de ses modèles Gemini, Google a lancé Gemma, une nouvelle famille de modèles légers et ouverts.
  • Groupe de travail de la Chambre : La Chambre des représentants des États-Unis a fondé un groupe de travail sur l’IA qui, comme l’écrit Devin, ressemble à un jeu de mots après des années d’indécision qui ne montrent aucun signe de fin.

Plus d’apprentissages automatiques

Les modèles d’IA semblent en savoir beaucoup, mais que savent-ils réellement ? Eh bien, la réponse est rien. Mais si vous formulez la question légèrement différemment… ils semblent avoir intériorisé certaines « significations » similaires à ce que les humains connaissent. Bien qu’aucune IA ne comprenne vraiment ce qu’est un chat ou un chien, pourrait-elle avoir un certain sentiment de similitude codé dans l’intégration de ces deux mots différents de, disons, chat et bouteille ? Les chercheurs d’Amazon le pensent.

Leurs recherches ont comparé les « trajectoires » de phrases similaires mais distinctes, comme « le chien a aboyé après le cambrioleur » et « le cambrioleur a fait aboyer le chien », avec celles de phrases grammaticalement similaires mais différentes, comme « un chat dort toute la journée ». et « une fille fait du jogging tout l’après-midi ». Ils ont constaté que ceux que les humains trouveraient similaires étaient en effet traités en interne comme plus similaires bien qu’ils soient grammaticalement différents, et vice versa pour les grammaticalement similaires. OK, j’ai l’impression que ce paragraphe était un peu déroutant, mais il suffit de dire que les significations codées dans les LLM semblent plus robustes et sophistiquées que prévu, pas totalement naïves.

Le codage neuronal s’avère utile dans la vision prothétique, ont découvert des chercheurs suisses de l’EPFL. Les rétines artificielles et autres moyens de remplacer des parties du système visuel humain ont généralement une résolution très limitée en raison des limites des réseaux de microélectrodes. Ainsi, quel que soit le degré de détail de l’image reçue, elle doit être transmise avec une très faible fidélité. Mais il existe différentes manières de sous-échantillonner, et cette équipe a constaté que l’apprentissage automatique faisait un excellent travail dans ce domaine.

Crédits images : EPFL

« Nous avons constaté que si nous appliquions une approche basée sur l’apprentissage, nous obtenions de meilleurs résultats en termes d’encodage sensoriel optimisé. Mais le plus surprenant est que lorsque nous avons utilisé un réseau neuronal sans contrainte, il a appris à imiter lui-même certains aspects du traitement rétinien », a déclaré Diego Ghezzi dans un communiqué de presse. Il s’agit essentiellement d’une compression perceptuelle. Ils l’ont testé sur des rétines de souris, ce n’est donc pas que théorique.

Une application intéressante de la vision par ordinateur réalisée par des chercheurs de Stanford fait allusion à un mystère dans la manière dont les enfants développent leurs compétences en dessin. L’équipe a sollicité et analysé 37 000 dessins d’enfants représentant divers objets et animaux, ainsi que (sur la base des réponses des enfants) le degré de reconnaissance de chaque dessin. Fait intéressant, ce n’est pas seulement l’inclusion de caractéristiques caractéristiques telles que les oreilles d’un lapin qui ont rendu les dessins plus reconnaissables par les autres enfants.

« Les types de caractéristiques qui rendent les dessins d’enfants plus âgés reconnaissables ne semblent pas être motivés par une seule caractéristique que tous les enfants plus âgés apprennent à inclure dans leurs dessins. C’est quelque chose de beaucoup plus complexe que ces systèmes d’apprentissage automatique s’attaquent », a déclaré la chercheuse principale Judith Fan.

Des chimistes (également à l’EPFL) ont constaté que les LLM sont également étonnamment aptes à les aider dans leur travail après une formation minimale. Il ne s’agit pas seulement de faire de la chimie directement, mais plutôt de peaufiner un ensemble de travaux que les chimistes individuellement ne peuvent pas connaître tous. Par exemple, dans des milliers d’articles, il peut y avoir quelques centaines de déclarations indiquant si un alliage à haute entropie est monophasé ou multiphasé (vous n’avez pas besoin de savoir ce que cela signifie – c’est le cas). Le système (basé sur GPT-3) peut être formé sur ce type de questions et réponses oui/non, et sera bientôt capable d’extrapoler à partir de cela.

Il ne s’agit pas d’une avancée majeure, mais simplement d’une preuve supplémentaire que les LLM sont un outil utile en ce sens. « Le fait est que c’est aussi simple que de faire une recherche documentaire, ce qui fonctionne pour de nombreux problèmes chimiques », a déclaré le chercheur Berend Smit. « Interroger un modèle fondamental pourrait devenir un moyen courant de démarrer un projet. »

Enfin, un mot d’avertissement de la part des chercheurs de Berkeley, mais maintenant que je lis à nouveau l’article, je vois que l’EPFL a également été impliquée dans celui-ci. Allez Lausanne! Le groupe a constaté que les images trouvées via Google étaient beaucoup plus susceptibles de renforcer les stéréotypes de genre pour certains emplois et certains mots que les textes mentionnant la même chose. Et il y avait aussi bien plus d’hommes présents dans les deux cas.

Non seulement cela, mais dans une expérience, ils ont découvert que les personnes qui regardaient des images plutôt que de lire du texte lors de la recherche d’un rôle associaient ces rôles à un sexe de manière plus fiable, même quelques jours plus tard. « Il ne s’agit pas seulement de la fréquence des préjugés sexistes en ligne », a déclaré le chercheur Douglas Guilbeault. « Une partie de l’histoire ici est qu’il y a quelque chose de très collant, de très puissant dans la représentation des personnes par les images, que le texte n’a tout simplement pas. »

Avec des choses comme le fracas sur la diversité du générateur d’images de Google, il est facile de perdre de vue le fait établi et fréquemment vérifié selon lequel la source de données de nombreux modèles d’IA présente de sérieux biais, et ce biais a un effet réel sur les gens.

Source-146