La débâcle du deepfake de Taylor Swift aurait pu être évitée de manière frustrante

Vous savez que vous avez fait une erreur lorsque vous avez simultanément mis en colère la Maison Blanche, la personnalité de l’année du TIME et la base de fans la plus enragée de la culture pop. C’est ce qui est arrivé la semaine dernière à X, la plateforme appartenant à Elon Musk, anciennement appelée Twitter, lorsque de fausses images pornographiques de Taylor Swift générées par l’IA sont devenues virales.

L’une des publications les plus répandues de deepfakes explicites et non consensuelles a été vue plus de 45 millions de fois, avec des centaines de milliers de likes. Cela ne prend même pas en compte tous les comptes qui ont repartagé les images dans des publications distinctes : une fois qu’une image a été diffusée aussi largement, il est pratiquement impossible de la supprimer.

X ne dispose pas de l’infrastructure nécessaire pour identifier rapidement et à grande échelle les contenus abusifs. Même à l’époque de Twitter, ce problème était difficile à résoudre, mais il est devenu bien pire depuis que Musk a vidé une grande partie du personnel de Twitter, y compris la majorité de ses équipes de confiance et de sécurité. Ainsi, la base de fans massive et passionnée de Taylor Swift a pris les choses en main, inondant les résultats de recherche de requêtes telles que « Taylor Swift Ai » et « Taylor Swift Deepfake » pour rendre plus difficile pour les utilisateurs de trouver les images abusives. Alors que l’attaché de presse de la Maison Blanche appelait le Congrès à faire quelque chose, X a simplement interdit le terme de recherche « Taylor Swift » pendant quelques jours. Lorsque les utilisateurs recherchaient le nom du musicien, ils voyaient une notification indiquant qu’une erreur s’était produite.

Cet échec de modération de contenu est devenu un fait divers national, puisque Taylor Swift est Taylor Swift. Mais si les plateformes sociales ne peuvent pas protéger l’une des femmes les plus célèbres du monde, qui peuvent-elles protéger ?

« Si ce qui est arrivé à Taylor Swift vous arrive, comme cela est arrivé à tant de gens, vous n’aurez probablement pas le même niveau de soutien basé sur l’influence, ce qui signifie que vous n’aurez pas vraiment accès à ces informations. d’importantes communautés de soins », a déclaré à TechCrunch le Dr Carolina Are, membre du Centre pour les citoyens numériques de l’Université de Northumbria au Royaume-Uni. « Et ces communautés de soins sont celles auxquelles la plupart des utilisateurs doivent recourir dans ces situations, ce qui montre vraiment l’échec de la modération du contenu. »

Interdire le terme de recherche « Taylor Swift », c’est comme mettre un morceau de scotch sur un tuyau éclaté. Il existe de nombreuses solutions de contournement évidentes, comme la façon dont les utilisateurs de TikTok recherchent « seggs » au lieu de sexe. Le bloc de recherche était quelque chose que X pouvait implémenter pour donner l’impression qu’il faisait quelque chose, mais cela n’empêche pas les gens de simplement rechercher « t swift » à la place. Le fondateur du Copia Institute et de Techdirt, Mike Masnick, a qualifié cet effort de « version marteau de la confiance et de la sécurité ».

« Les plateformes sont nulles lorsqu’il s’agit de donner aux femmes, aux personnes non binaires et aux personnes queer le pouvoir d’agir sur leur corps, elles reproduisent donc des systèmes d’abus et de patriarcat hors ligne », a déclaré Are. « Si vos systèmes de modération sont incapables de réagir en cas de crise, ou si vos systèmes de modération sont incapables de réagir aux besoins des utilisateurs lorsqu’ils signalent que quelque chose ne va pas, nous avons un problème. »

Alors, qu’aurait dû faire X pour empêcher le fiasco de Taylor Swift ?

Are pose ces questions dans le cadre de ses recherches et propose que les plateformes sociales aient besoin d’une refonte complète de la façon dont elles gèrent la modération du contenu. Récemment, elle a mené une série de tables rondes avec 45 internautes du monde entier touchés par la censure et les abus, afin de formuler des recommandations aux plateformes sur la manière de mettre en œuvre des changements.

Une recommandation est que les plateformes de médias sociaux soient plus transparentes envers les utilisateurs individuels sur les décisions concernant leur compte ou leurs rapports sur d’autres comptes.

« Vous n’avez pas accès à un dossier, même si les plateformes ont accès à ce matériel – elles ne veulent tout simplement pas le rendre public », a déclaré Are. « Je pense que lorsqu’il s’agit d’abus, les gens ont besoin d’une réponse plus personnalisée, plus contextuelle et plus rapide qui implique, sinon une aide en face-à-face, du moins une communication directe. »

X a annoncé cette semaine qu’il embaucherait 100 modérateurs de contenu pour travailler dans un nouveau centre « Confiance et sécurité » à Austin, au Texas. Mais du point de vue de Musk, la plateforme n’a pas créé un précédent solide en matière de protection des utilisateurs marginalisés contre les abus. Il peut également être difficile de prendre Musk au pied de la lettre, car le magnat a une longue histoire de non-respect de ses promesses. Lorsqu’il a acheté Twitter pour la première fois, Musk a déclaré qu’il formerait un conseil de modération du contenu avant de prendre des décisions importantes. Cela ne s’est pas produit.

Dans le cas des deepfakes générés par l’IA, la responsabilité n’incombe pas uniquement aux plateformes sociales. Cela concerne également les entreprises qui créent des produits d’IA générative destinés aux consommateurs.

Selon une enquête menée par 404 Media, les représentations abusives de Swift provenaient d’un groupe Telegram consacré à la création de deepfakes explicites et non consensuels. Les membres du groupe utilisent souvent Microsoft Designer, qui s’inspire du DALL-E 3 d’OpenAI pour générer des images basées sur les invites saisies. Dans une faille que Microsoft a depuis comblée, les utilisateurs pouvaient générer des images de célébrités en écrivant des invites telles que « Taylor « chanteur » Swift » ou « Jennifer « acteur » Aniston.

L’un des principaux responsables de l’ingénierie logicielle chez Microsoft, Shane Jones, a écrit une lettre au procureur général de l’État de Washington déclarant avoir découvert des vulnérabilités dans DALL-E 3 en décembre, ce qui a permis de « contourner certains des garde-fous conçus pour empêcher le modèle de création et de diffusion d’images nuisibles.

Jones a alerté Microsoft et OpenAI des vulnérabilités, mais après deux semaines, il n’avait reçu aucune indication indiquant que les problèmes étaient résolus. Il a donc publié une lettre ouverte sur LinkedIn pour exhorter OpenAI à suspendre la disponibilité de DALL-E 3. Jones a alerté Microsoft de sa lettre, mais on lui a rapidement demandé de la retirer.

« Nous devons tenir les entreprises responsables de la sécurité de leurs produits et de leur responsabilité de divulguer les risques connus au public », a écrit Jones dans sa lettre au procureur général de l’État. « Les employés concernés, comme moi, ne devraient pas être intimidés et amenés à garder le silence. »

OpenAI a déclaré à TechCrunch qu’elle avait immédiatement enquêté sur le rapport de Jones et découvert que la technique qu’il avait décrite ne contournait pas ses systèmes de sécurité.

« Dans le modèle DALL-E 3 sous-jacent, nous avons travaillé pour filtrer le contenu le plus explicite de ses données de formation, y compris le contenu graphique sexuel et violent, et avons développé des classificateurs d’images robustes qui empêchent le modèle de générer des images nuisibles », a déclaré un porte-parole. d’OpenAI a déclaré. « Nous avons également mis en place des garanties supplémentaires pour nos produits, ChatGPT et l’API DALL-E, notamment le refus des demandes demandant le nom d’une personnalité publique. »

OpenAI a ajouté qu’il utilise une équipe rouge externe pour tester les produits en cas d’utilisation abusive. Il n’est pas encore confirmé si le programme de Microsoft est responsable des deepfakes explicites de Swift, mais le fait est que depuis la semaine dernière, les journalistes et les mauvais acteurs de Telegram ont pu utiliser ce logiciel pour générer des images de célébrités.

Alors que les entreprises les plus influentes du monde misent gros sur l’IA, les plateformes doivent adopter une approche proactive pour réglementer les contenus abusifs – mais même à une époque où créer des deepfakes de célébrités n’était pas si facile, les comportements violents échappaient facilement à la modération.

« Cela montre vraiment que les plateformes ne sont pas fiables », a déclaré Are. « Les communautés marginalisées doivent faire davantage confiance à leurs abonnés et aux autres utilisateurs qu’aux personnes qui sont techniquement responsables de notre sécurité en ligne. »

Mis à jour le 30/01/24 à 22 h 30 HE, avec commentaire d’OpenAI

Source-146