À mesure que les systèmes d’IA générative comme ChatGPT d’OpenAI et Gemini de Google deviennent plus avancés, ils sont de plus en plus utilisés. Les startups et les entreprises technologiques créent des agents et des écosystèmes d’IA au-dessus des systèmes qui peuvent effectuer des tâches ennuyeuses à votre place : pensez à effectuer automatiquement des réservations de calendrier et éventuellement à acheter des produits. Mais à mesure que les outils bénéficient de plus de liberté, cela augmente également les possibilités d’attaque contre eux.
Aujourd’hui, dans le cadre d’une démonstration des risques liés aux écosystèmes d’IA autonomes et connectés, un groupe de chercheurs a créé l’un des premiers vers d’IA génératifs, selon eux, qui peut se propager d’un système à un autre, volant potentiellement des données ou déployant des logiciels malveillants dans le système. processus. « Cela signifie essentiellement que vous avez désormais la possibilité de mener ou d’exécuter un nouveau type de cyberattaque qui n’a jamais été vu auparavant », explique Ben Nassi, chercheur de Cornell Tech à l’origine de la recherche.
Nassi, avec ses collègues chercheurs Stav Cohen et Ron Bitton, a créé le ver, surnommé Morris II, en clin d’œil au ver informatique original Morris qui a semé le chaos sur Internet en 1988. Dans un document de recherche et un site Web partagés exclusivement avec WIRED, le les chercheurs montrent comment le ver IA peut attaquer un assistant de messagerie génératif IA pour voler des données dans des e-mails et envoyer des messages indésirables, brisant ainsi certaines protections de sécurité dans ChatGPT et Gemini.
La recherche, qui a été entreprise dans des environnements de test et non contre un assistant de messagerie accessible au public, intervient alors que les grands modèles de langage (LLM) deviennent de plus en plus multimodaux, capables de générer des images et des vidéos ainsi que du texte. Bien que les vers d’IA générative n’aient pas encore été repérés dans la nature, plusieurs chercheurs affirment qu’ils constituent un risque de sécurité dont les startups, les développeurs et les entreprises technologiques devraient s’inquiéter.
La plupart des systèmes d’IA générative fonctionnent en recevant des invites, des instructions textuelles qui indiquent aux outils de répondre à une question ou de créer une image. Cependant, ces invites peuvent également être utilisées comme arme contre le système. Les jailbreaks peuvent amener un système à ignorer ses règles de sécurité et à diffuser du contenu toxique ou haineux, tandis que des attaques par injection rapide peuvent donner des instructions secrètes à un chatbot. Par exemple, un attaquant peut cacher du texte sur une page Web indiquant à un LLM d’agir comme un escroc et de vous demander vos coordonnées bancaires.
Pour créer le ver génératif à IA, les chercheurs se sont tournés vers ce que l’on appelle une « invite contradictoire à auto-réplication ». Il s’agit d’une invite qui déclenche le modèle d’IA générative pour qu’il génère, dans sa réponse, une autre invite, disent les chercheurs. En bref, le système d’IA doit produire un ensemble d’instructions supplémentaires dans ses réponses. Selon les chercheurs, cette situation est globalement similaire aux attaques traditionnelles par injection SQL et par débordement de tampon.
Pour montrer comment le ver peut fonctionner, les chercheurs ont créé un système de messagerie capable d’envoyer et de recevoir des messages à l’aide de l’IA générative, en se connectant à ChatGPT, Gemini et au LLM open source, LLaVA. Ils ont ensuite trouvé deux façons d’exploiter le système : en utilisant une invite auto-répliquante basée sur du texte et en intégrant une invite auto-répliquante dans un fichier image.
Dans un cas, les chercheurs, agissant comme des attaquants, ont écrit un e-mail contenant une invite de texte contradictoire, qui « empoisonne » la base de données d’un assistant de messagerie en utilisant la génération augmentée par récupération (RAG), un moyen permettant aux LLM d’extraire des données supplémentaires de l’extérieur. son système. Lorsque l’e-mail est récupéré par le RAG, en réponse à une requête de l’utilisateur, et est envoyé à GPT-4 ou Gemini Pro pour créer une réponse, il « jailbreake le service GenAI » et vole finalement les données des e-mails, explique Nassi. « La réponse générée contenant les données utilisateur sensibles infecte plus tard les nouveaux hôtes lorsqu’elle est utilisée pour répondre à un e-mail envoyé à un nouveau client puis stockée dans la base de données du nouveau client », explique Nassi.
Dans la deuxième méthode, disent les chercheurs, une image avec une invite malveillante intégrée oblige l’assistant de messagerie à transmettre le message à d’autres. « En codant l’invite auto-répliquante dans l’image, tout type d’image contenant du spam, du matériel abusif ou même de la propagande peut être transmis à de nouveaux clients après l’envoi de l’e-mail initial », explique Nassi.
Dans une vidéo démontrant la recherche, on peut voir le système de messagerie transférer un message plusieurs fois. Les chercheurs affirment également qu’ils pourraient extraire des données des e-mails. « Il peut s’agir de noms, de numéros de téléphone, de numéros de carte de crédit, de SSN, de tout ce qui est considéré comme confidentiel », explique Nassi.
Bien que la recherche enfreigne certaines des mesures de sécurité de ChatGPT et Gemini, les chercheurs affirment que ces travaux constituent un avertissement concernant une « mauvaise conception architecturale » au sein de l’écosystème plus large de l’IA. Néanmoins, ils ont rapporté leurs découvertes à Google et OpenAI. « Ils semblent avoir trouvé un moyen d’exploiter les vulnérabilités de type injection rapide en s’appuyant sur les entrées des utilisateurs qui n’ont pas été vérifiées ou filtrées », a déclaré un porte-parole d’OpenAI, ajoutant que l’entreprise s’efforce de rendre ses systèmes « plus résilients ». et disant que les développeurs devraient « utiliser des méthodes qui garantissent qu’ils ne travaillent pas avec des entrées nuisibles ». Google a refusé de commenter la recherche. Les messages partagés par Nassi avec WIRED montrent que les chercheurs de l’entreprise ont demandé une réunion pour parler du sujet.
Bien que la démonstration du ver se déroule dans un environnement largement contrôlé, plusieurs experts en sécurité qui ont examiné la recherche affirment que le risque futur des vers à IA générative est un risque que les développeurs devraient prendre au sérieux. Cela s’applique particulièrement lorsque les applications d’IA sont autorisées à effectuer des actions au nom d’une personne, comme l’envoi d’e-mails ou la prise de rendez-vous, et lorsqu’elles peuvent être liées à d’autres agents d’IA pour accomplir ces tâches. Dans d’autres recherches récentes, des chercheurs en sécurité de Singapour et de Chine ont montré comment ils pouvaient jailbreaker 1 million d’agents LLM en moins de cinq minutes.
Sahar Abdelnabi, chercheuse au Centre CISPA Helmholtz pour la sécurité de l’information en Allemagne, qui a travaillé sur certaines des premières démonstrations d’injections rapides contre les LLM en mai 2023 et a souligné que les vers pourraient être possibles, affirme que lorsque les modèles d’IA intègrent des données externes Si les sources ou les agents d’IA peuvent travailler de manière autonome, il existe un risque de propagation des vers. « Je pense que l’idée de généraliser les injections est très plausible », déclare Abdelnabi. « Tout dépend du type d’applications dans lesquelles ces modèles sont utilisés. » Abdelnabi estime que même si ce type d’attaque est actuellement simulé, il ne restera peut-être pas longtemps théorique.
Dans un article décrivant leurs découvertes, Nassi et les autres chercheurs affirment qu’ils prévoient de voir des vers génératifs d’IA dans la nature au cours des deux à trois prochaines années. « Les écosystèmes GenAI font l’objet d’un développement massif par de nombreuses entreprises du secteur qui intègrent les capacités GenAI dans leurs voitures, smartphones et systèmes d’exploitation », indique le document de recherche.
Malgré cela, il existe des moyens pour les créateurs de systèmes d’IA générative de se défendre contre les vers potentiels, notamment en utilisant des approches de sécurité traditionnelles. « Pour bon nombre de ces problèmes, il s’agit d’un problème dont la conception et la surveillance appropriées des applications sécurisées pourraient en partie résoudre ce problème », explique Adam Swanda, chercheur en menaces au sein de la société de sécurité d’entreprise IA Robust Intelligence. « En général, vous ne souhaitez pas faire confiance aux résultats LLM dans votre application. »
Swanda affirme également que garder les humains au courant, en garantissant que les agents d’IA ne sont pas autorisés à entreprendre des actions sans approbation, est une mesure d’atténuation cruciale qui peut être mise en place. « Vous ne voulez pas qu’un LLM qui lit votre courrier électronique puisse se retourner et envoyer un courrier électronique. Il devrait y avoir une limite là-bas. Pour Google et OpenAI, Swanda affirme que si une invite est répétée des milliers de fois dans ses systèmes, cela créera beaucoup de « bruit » et pourra être facile à détecter.
Nassi et la recherche réitèrent bon nombre des mêmes approches d’atténuation. En fin de compte, dit Nassi, les personnes qui créent des assistants IA doivent être conscientes des risques. «C’est quelque chose que vous devez comprendre et voir si le développement de l’écosystème, des applications que vous avez dans votre entreprise suit fondamentalement l’une de ces approches», dit-il. « Parce que s’ils le font, il faut en tenir compte. »
Cette histoire a été initialement publiée sur wired.com.