Google a interdit la formation de systèmes d’IA pouvant être utilisés pour générer des deepfakes sur sa plateforme Google Colaboratory. Les conditions d’utilisation mises à jour, repérées au cours du week-end par BleepingComputer, incluent les travaux liés aux deepfakes dans la liste des projets non autorisés.
Colaboratory, ou Colab en abrégé, est issu d’un projet interne de Google Research fin 2017. Il est conçu pour permettre à quiconque d’écrire et d’exécuter du code Python arbitraire via un navigateur Web, en particulier du code pour l’apprentissage automatique, l’éducation et l’analyse de données. À cette fin, Google fournit aux utilisateurs de Colab un accès gratuit et payant au matériel, y compris aux GPU et aux unités de traitement de tenseur (TPU) conçues sur mesure et accélérant l’IA.
Ces dernières années, Colab est devenu la plate-forme de facto pour les démonstrations au sein de la communauté de recherche en IA. Il n’est pas rare que les chercheurs qui ont écrit du code incluent des liens vers des pages Colab sur ou à côté des référentiels GitHub hébergeant le code. Mais Google n’a pas toujours été très restrictif en ce qui concerne le contenu de Colab, ouvrant potentiellement la porte aux acteurs qui souhaitent utiliser le service à des fins moins scrupuleuses.
Les utilisateurs du générateur de deepfake open source DeepFaceLab ont pris connaissance du changement des conditions d’utilisation la semaine dernière, lorsque plusieurs ont reçu un message d’erreur après avoir tenté d’exécuter DeepFaceLab dans Colab. L’avertissement était le suivant : « Vous exécutez peut-être du code non autorisé, ce qui peut restreindre votre capacité à utiliser Colab à l’avenir. Veuillez noter les actions interdites spécifiées dans notre FAQ.
Tous les codes ne déclenchent pas l’avertissement. Ce journaliste a pu exécuter sans problème l’un des projets deepfake Colab les plus populaires, et les utilisateurs de Reddit signalent qu’un autre projet phare, FaceSwap, reste entièrement fonctionnel. Cela suggère que l’application est basée sur une liste noire plutôt que sur un mot-clé, et qu’il incombera à la communauté Colab de signaler le code qui ne respecte pas la nouvelle règle.
« Nous surveillons régulièrement les voies d’abus dans Colab qui vont à l’encontre des principes d’IA de Google, tout en équilibrant notre soutien à notre mission de donner à nos utilisateurs l’accès à des ressources précieuses telles que les TPU et les GPU. Les deepfakes ont été ajoutés à notre liste d’activités interdites des runtimes Colab le mois dernier en réponse à nos examens réguliers des modèles abusifs », a déclaré un porte-parole de Google à TechCrunch par e-mail. « Dissuader les abus est un jeu en constante évolution, et nous ne pouvons pas divulguer des méthodes spécifiques car les contreparties peuvent tirer parti des connaissances pour échapper aux systèmes de détection. En général, nous avons des systèmes automatisés qui détectent et interdisent de nombreux types d’abus. »
Les données d’Archive.org montrent que Google a discrètement mis à jour les conditions de Colab à la mi-mai. Les restrictions précédentes sur des choses comme l’exécution d’attaques par déni de service, le craquage de mot de passe et le téléchargement de torrents sont restées inchangées.
Les deepfakes se présentent sous de nombreuses formes, mais l’une des plus courantes sont les vidéos où le visage d’une personne a été collé de manière convaincante sur un autre visage. Contrairement aux travaux bruts de Photoshop d’antan, les deepfakes générés par l’IA peuvent mieux correspondre aux mouvements du corps, aux microexpressions et aux tons de peau d’une personne que le CGI produit par Hollywood dans certains cas.
Les deepfakes peuvent être inoffensifs, voire divertissants, comme l’ont montré d’innombrables vidéos virales. Mais ils sont de plus en plus utilisés par les pirates pour cibler les utilisateurs de médias sociaux dans des stratagèmes d’extorsion et de fraude. Plus néfaste encore, ils ont été exploités dans la propagande politique, par exemple pour créer des vidéos du président ukrainien Volodymyr Zelensky prononçant un discours sur la guerre en Ukraine qu’il n’a jamais réellement prononcé.
De 2019 à 2021, le nombre de deepfakes en ligne est passé d’environ 14 000 à 145 000, selon une source. Forrester Research a estimé en octobre 2019 que les escroqueries profondes coûteraient 250 millions de dollars d’ici la fin de 2020.
« En ce qui concerne spécifiquement les deepfakes, la question la plus pertinente est d’ordre éthique : la double utilisation », a déclaré Vagrant Gautam, linguiste informatique à l’Université de la Sarre en Allemagne, à TechCrunch par e-mail. « C’est un peu comme penser aux armes à feu ou au chlore. Le chlore est utile pour nettoyer les choses, mais il a également été utilisé comme arme chimique. Nous traitons donc cela en pensant d’abord à la gravité de la technologie, puis, par exemple, en nous mettant d’accord sur le Protocole de Genève selon lequel nous n’utiliserons pas d’armes chimiques les uns sur les autres. Malheureusement, nous n’avons pas de pratiques éthiques cohérentes à l’échelle de l’industrie concernant l’apprentissage automatique et l’IA, mais il est logique que Google propose son propre ensemble de conventions réglementant l’accès et la capacité à créer des deepfakes, d’autant plus qu’ils sont souvent utilisé pour désinformer et diffuser de fausses nouvelles – ce qui est un problème qui est mauvais et qui continue de s’aggraver.
Os Keyes, professeur auxiliaire à l’Université de Seattle, a également approuvé la décision de Google d’interdire les projets deepfake de Colab. Mais il a noté que davantage doit être fait sur le plan politique pour empêcher leur création et leur propagation.
« La façon dont cela a été fait met certainement en évidence la pauvreté de s’appuyer sur l’auto-surveillance des entreprises », a déclaré Keyes à TechCrunch par e-mail. « La génération Deepfake ne devrait absolument pas être une forme de travail acceptable, enfin, n’importe où, et c’est donc bien que Google ne se rende pas complice de cela… Mais l’interdiction ne se produit pas dans le vide – elle se produit dans un environnement où réel, une réglementation responsable et réactive de ces types de plateformes de développement (et d’entreprises) fait défaut.
D’autres, en particulier ceux qui bénéficiaient de l’ancienne approche de laissez-faire de Colab en matière de gouvernance, pourraient ne pas être d’accord. Il y a des années, le laboratoire de recherche sur l’IA OpenAI a initialement refusé d’ouvrir un modèle générateur de langage, GPT-2, par crainte qu’il ne soit utilisé à mauvais escient. Cela a motivé des groupes comme EleutherAI à tirer parti d’outils tels que Colab pour développer et publier leurs propres modèles générateurs de langage, apparemment pour la recherche.
Lorsque j’ai parlé à Connor Leahy, membre d’EleutherAI, l’année dernière, il a affirmé que la banalisation des modèles d’IA faisait partie d’une « tendance inévitable » dans la baisse du prix de la production de « contenu numérique convaincant » qui ne déraillera pas que le code soit publié ou non. Selon lui, les modèles et outils d’IA devraient être largement diffusés afin que les utilisateurs « à faibles ressources », en particulier les universitaires, puissent accéder à de meilleures études et effectuer leurs propres recherches axées sur la sécurité.
« Les deepfakes ont un grand potentiel pour aller à l’encontre des principes d’IA de Google. Nous aspirons à être en mesure de détecter et de dissuader les modèles de deepfake abusifs par rapport aux modèles bénins, et nous modifierons nos politiques au fur et à mesure que nos méthodes progresseront », a poursuivi le porte-parole. « Les utilisateurs souhaitant explorer des projets de médias synthétiques de manière bénigne sont encouragés à parler à un représentant de Google Cloud pour examiner leur cas d’utilisation et explorer la pertinence d’autres offres de calcul géré dans Google Cloud. »