Un responsable de Microsoft affirme que le DALL-E 3 d’OpenAI présente des failles de sécurité qui pourraient permettre aux utilisateurs de générer des images violentes ou explicites (similaires à celles qui ont récemment ciblé Taylor Swift). GeekWire a rapporté mardi que l’équipe juridique de la société avait bloqué les tentatives du leader de l’ingénierie de Microsoft, Shane Jones, d’alerter le public sur l’exploit. Le lanceur d’alerte autoproclamé transmet désormais son message au Capitole.
« Je suis parvenu à la conclusion que DALL·E 3 présentait un risque pour la sécurité publique et devrait être retiré de l’usage public jusqu’à ce qu’OpenAI puisse résoudre les risques associés à ce modèle », a écrit Jones aux sénateurs américains Patty Murray (D-WA) et Maria Cantwell ( D-WA), le représentant Adam Smith (D-WA 9e district) et le procureur général de l’État de Washington, Bob Ferguson (D). GeekWire a publié la lettre complète de Jones.
Jones affirme avoir découvert un exploit lui permettant de contourner les garde-corps de sécurité de DALL-E 3 début décembre. Il dit avoir signalé le problème à ses supérieurs chez Microsoft, qui lui ont demandé de « signaler personnellement le problème directement à OpenAI ». Après cela, il affirme avoir appris que la faille pourrait permettre la génération d’« images nuisibles, violentes et dérangeantes ».
Jones a ensuite tenté de rendre sa cause publique dans une publication sur LinkedIn. « Le matin du 14 décembre 2023, j’ai publié publiquement une lettre sur LinkedIn adressée au conseil d’administration à but non lucratif d’OpenAI, les exhortant à suspendre la disponibilité de DALL·E 3) », a écrit Jones. « Étant donné que Microsoft est observateur au conseil d’administration d’OpenAI et que j’avais déjà fait part de mes préoccupations à mon équipe de direction, j’ai rapidement informé Microsoft de la lettre que j’avais publiée. »
La réponse de Microsoft aurait été d’exiger qu’il supprime son message. « Peu de temps après avoir divulgué la lettre à mon équipe de direction, mon responsable m’a contacté et m’a dit que le service juridique de Microsoft avait exigé que je supprime le message », écrit-il dans sa lettre. « Il m’a dit que le service juridique de Microsoft donnerait très bientôt suite à sa justification spécifique de la demande de retrait par e-mail, et que je devais la supprimer immédiatement sans attendre l’e-mail du service juridique. »
Jones s’est conformé, mais il affirme que la réponse plus précise de l’équipe juridique de Microsoft n’est jamais arrivée. « Je n’ai jamais reçu d’explication ou de justification de leur part », a-t-il écrit. Il affirme que d’autres tentatives visant à en apprendre davantage auprès du service juridique de l’entreprise ont été ignorées. « Le service juridique de Microsoft n’a toujours pas répondu ni communiqué directement avec moi », a-t-il écrit.
Un porte-parole d’OpenAI a écrit à Engadget dans un e-mail : « Nous avons immédiatement enquêté sur le rapport de l’employé de Microsoft lorsque nous l’avons reçu le 1er décembre et avons confirmé que la technique qu’il a partagée ne contourne pas nos systèmes de sécurité. La sécurité est notre priorité et nous adoptons une approche sur plusieurs fronts. Dans le modèle DALL-E 3 sous-jacent, nous avons travaillé pour filtrer le contenu le plus explicite de ses données de formation, y compris le contenu graphique sexuel et violent, et avons développé des classificateurs d’images robustes qui empêchent le modèle de générer des images nuisibles.
« Nous avons également mis en place des garanties supplémentaires pour nos produits, ChatGPT et l’API DALL-E, notamment le refus des demandes demandant le nom d’une personnalité publique », a poursuivi le porte-parole d’OpenAI. «Nous identifions et refusons les messages qui violent nos politiques et filtrons toutes les images générées avant qu’elles ne soient présentées à l’utilisateur. Nous faisons appel à une équipe rouge d’experts externes pour tester les utilisations abusives et renforcer nos garanties.
Pendant ce temps, un porte-parole de Microsoft a écrit à Engadget : « Nous nous engageons à répondre à toutes les préoccupations des employés conformément aux politiques de notre entreprise, et apprécions les efforts des employés pour étudier et tester notre dernière technologie afin d’améliorer encore sa sécurité. Lorsqu’il s’agit de contournements de sécurité ou de problèmes susceptibles d’avoir un impact potentiel sur nos services ou nos partenaires, nous avons établi des canaux de reporting internes robustes pour enquêter et résoudre correctement tout problème, que nous avons recommandé à l’employé d’utiliser afin que nous puissions valider et tester de manière appropriée. ses inquiétudes avant de les escalader publiquement.
« Étant donné que son rapport concernait un produit OpenAI, nous l’avons encouragé à faire un rapport via les canaux de reporting standard d’OpenAI et l’un de nos principaux chefs de produit a partagé les commentaires de l’employé avec OpenAI, qui a immédiatement enquêté sur la question », a écrit le porte-parole de Microsoft. « Dans le même temps, nos équipes ont enquêté et confirmé que les techniques signalées ne contournaient nos filtres de sécurité dans aucune de nos solutions de génération d’images basées sur l’IA. Les commentaires des employés sont un élément essentiel de notre culture, et nous sommes en contact avec ce collègue pour répondre à toutes ses préoccupations restantes.
Microsoft a ajouté que son Office of Responsible AI a mis en place un outil de reporting interne permettant aux employés de signaler et de faire remonter leurs préoccupations concernant les modèles d’IA.
Le lanceur d’alerte affirme que les deepfakes pornographiques de Taylor Swift qui ont circulé sur X la semaine dernière sont une illustration de ce que des vulnérabilités similaires pourraient produire si rien n’est fait. 404 Médias a rapporté lundi que Microsoft Designer, qui utilise DALL-E 3 comme backend, faisait partie de l’ensemble d’outils des deepfakers qui ont réalisé la vidéo. La publication affirme que Microsoft, après avoir été informé, a corrigé cette faille particulière.
« Microsoft était conscient de ces vulnérabilités et du potentiel d’abus », a conclu Jones. Il n’est pas clair si les exploits utilisés pour créer le deepfake Swift étaient directement liés à ceux signalés par Jones en décembre.
Jones exhorte ses représentants à Washington, DC, à agir. Il suggère au gouvernement américain de créer un système de signalement et de suivi des vulnérabilités spécifiques de l’IA, tout en protégeant les employés comme lui qui s’expriment. « Nous devons tenir les entreprises responsables de la sécurité de leurs produits et de leur responsabilité de divulguer les risques connus au public », a-t-il écrit. « Les employés concernés, comme moi, ne devraient pas être intimidés et amenés à garder le silence. »
Mise à jour, 30 janvier 2024, 20 h 41 HE : Cette histoire a été mise à jour pour ajouter des déclarations à Engadget d’OpenAI et de Microsoft.