Des chercheurs montrent à quel point il est facile de vaincre les filigranes IA

James Marshall/Getty Images

Soheil Feizi se considère comme une personne optimiste. Mais le professeur d’informatique de l’Université du Maryland est direct lorsqu’il résume l’état actuel du filigranage des images d’IA. « Nous ne disposons actuellement d’aucun filigrane fiable », dit-il. « Nous les avons tous cassés. »

Pour l’un des deux types de filigranes IA qu’il a testés dans le cadre d’une nouvelle étude – les filigranes « à faible perturbation », invisibles à l’œil nu – il est encore plus direct : « Il n’y a aucun espoir ».

Feizi et ses coauteurs ont étudié à quel point il est facile pour les mauvais acteurs d’échapper aux tentatives de filigrane. (Il appelle cela « effacer » le filigrane.) En plus de démontrer comment les attaquants peuvent supprimer les filigranes, l’étude montre comment il est possible d’ajouter des filigranes aux images générées par l’homme, déclenchant ainsi des faux positifs. Publié en ligne cette semaine, le document préimprimé n’a pas encore été évalué par des pairs ; Feizi est une figure de proue qui étudie le fonctionnement possible de la détection de l’IA. C’est donc une recherche qui mérite qu’on s’y intéresse, même à ce stade précoce.

C’est une recherche qui arrive à point nommé. Le filigrane est devenu l’une des stratégies les plus prometteuses pour identifier les images et les textes générés par l’IA. Tout comme les filigranes physiques sont intégrés au papier-monnaie et aux timbres pour prouver leur authenticité, les filigranes numériques sont destinés à retracer l’origine des images et des textes en ligne, aidant ainsi les gens à repérer les vidéos falsifiées et les livres écrits par des robots. À l’approche des élections présidentielles américaines de 2024, les inquiétudes concernant la manipulation des médias sont vives – et certaines personnes se font déjà avoir. L’ancien président américain Donald Trump, par exemple, a partagé une fausse vidéo d’Anderson Cooper sur sa plateforme sociale Truth Social ; La voix de Cooper avait été clonée par l’IA.

Cet été, OpenAI, Alphabet, Meta, Amazon et plusieurs autres acteurs majeurs de l’IA se sont engagés à développer une technologie de filigrane pour lutter contre la désinformation. Fin août, DeepMind de Google a publié une version bêta de son nouvel outil de filigrane, SynthID. L’espoir est que ces outils signaleront le contenu de l’IA au fur et à mesure de sa génération, de la même manière que le filigrane physique authentifie les dollars au fur et à mesure de leur impression.

Il s’agit d’une stratégie solide et simple, mais elle n’est peut-être pas gagnante. Cette étude n’est pas le seul à pointer les défauts majeurs du tatouage. « Il est bien établi que le filigrane peut être vulnérable aux attaques », déclare Hany Farid, professeur à la School of Information de l’UC Berkeley.

En août dernier, des chercheurs de l’Université de Californie à Santa Barbara et Carnegie Mellon ont co-écrit un autre article décrivant des résultats similaires, après avoir mené leurs propres attaques expérimentales. « Tous les filigranes invisibles sont vulnérables », peut-on lire. Cette nouvelle étude va encore plus loin. Alors que certains chercheurs espéraient que des filigranes visibles (« à forte perturbation ») pourraient être développés pour résister aux attaques, Feizi et ses collègues affirment que même ce type de filigrane, plus prometteur, peut être manipulé.

Les failles du filigrane n’ont pas dissuadé les géants de la technologie de le proposer comme solution, mais les personnes travaillant dans le domaine de la détection de l’IA se méfient. « Le filigrane semble à première vue être une solution noble et prometteuse, mais ses applications dans le monde réel échouent dès le début lorsqu’elles peuvent être facilement falsifiées, supprimées ou ignorées », déclare Ben Colman, PDG de la startup de détection d’IA Reality Defender.

« Le filigrane n’est pas efficace », ajoute Bars Juhasz, cofondateur d’Undetectable, une startup qui se consacre à aider les gens à échapper aux détecteurs d’IA. « Des industries entières, comme la nôtre, se sont levées pour s’assurer que ce n’est pas efficace. » Selon Juhasz, des entreprises comme la sienne sont déjà capables de proposer des services rapides de suppression de filigranes.

D’autres pensent que le filigrane a sa place dans la détection de l’IA, à condition que nous comprenions ses limites. « Il est important de comprendre que personne ne pense que le filigrane seul sera suffisant », explique Farid. « Mais je pense qu’un filigrane robuste fait partie de la solution. » Il pense qu’en améliorant le filigrane, puis en l’utilisant en combinaison avec d’autres technologies, il sera plus difficile pour les mauvais acteurs de créer des contrefaçons convaincantes.

Certains collègues de Feizi pensent que le filigrane a également sa place. « Le fait que ce soit un coup dur pour le filigrane dépend en grande partie des hypothèses et des espoirs placés dans le filigrane comme solution », explique Yuxin Wen, doctorant à l’Université du Maryland et co-auteur d’un article récent suggérant une nouvelle technique de filigrane. Pour Wen et ses co-auteurs, dont le professeur d’informatique Tom Goldstein, cette étude est l’occasion de réexaminer les attentes placées dans le filigrane, plutôt que de rejeter son utilisation comme un outil d’authentification parmi tant d’autres.

« Il y aura toujours des acteurs sophistiqués capables d’échapper à la détection », déclare Goldstein. « C’est bien d’avoir un système qui ne peut détecter que certaines choses. » Il considère les filigranes comme une forme de réduction des dommages et utile pour détecter les tentatives de falsification de l’IA de niveau inférieur, même s’ils ne peuvent pas empêcher les attaques de haut niveau.

Cette modération des attentes est peut-être déjà en train de se produire. Dans son article de blog annonçant SynthID, DeepMind prend soin de couvrir ses paris, notant que l’outil « n’est pas infaillible » et « n’est pas parfait ».

Feizi est largement sceptique quant au fait que le filigrane soit une bonne utilisation des ressources pour des entreprises comme Google. « Peut-être devrions-nous nous habituer au fait que nous ne serons pas en mesure de signaler de manière fiable les images générées par l’IA », dit-il.

Pourtant, son article est légèrement plus ensoleillé dans ses conclusions. « D’après nos résultats, concevoir un filigrane robuste est une tâche difficile mais pas nécessairement impossible », peut-on lire.

Cette histoire a été initialement publiée sur wired.com.

Source-147