Jeudi, quelques utilisateurs de Twitter découvert comment détourner un bot tweet automatisé, dédié aux travaux à distance, fonctionnant sur le modèle de langage GPT-3 par OpenAI. En utilisant une technique récemment découverte appelée « attaque par injection rapide », ils ont redirigé le bot pour qu’il répète des phrases embarrassantes et ridicules.
Le bot est géré par Remoteli.io, un site qui regroupe les opportunités d’emploi à distance et se décrit comme « un bot piloté par OpenAI qui vous aide à découvrir des emplois à distance qui vous permettent de travailler de n’importe où ». Il répondrait normalement aux tweets qui lui sont adressés avec des déclarations génériques sur les avantages du travail à distance. Après que l’exploit soit devenu viral et que des centaines de personnes aient essayé l’exploit par eux-mêmes, le bot s’est arrêté tard hier.
Ce récent piratage est survenu quatre jours seulement après que le chercheur en données Riley Goodside découvert la possibilité d’inviter GPT-3 avec des « entrées malveillantes » qui ordonnent au modèle d’ignorer ses directions précédentes et de faire autre chose à la place. Le chercheur en intelligence artificielle Simon Willison a publié un aperçu de l’exploit sur son blog le lendemain, inventant le terme « injection rapide » pour le décrire.
« L’exploit est présent chaque fois que quelqu’un écrit un logiciel qui fonctionne en fournissant un ensemble d’instructions d’invite codées en dur, puis ajoute une entrée fournie par un utilisateur « , a déclaré Willison à Ars. » C’est parce que l’utilisateur peut taper » Ignorer les instructions précédentes et (faites ceci à la place).' »
Le concept d’attaque par injection n’est pas nouveau. Les chercheurs en sécurité connaissent l’injection SQL, par exemple, qui peut exécuter une instruction SQL nuisible lors de la demande d’entrée de l’utilisateur si elle n’est pas protégée. Mais Willison s’est dit préoccupé par l’atténuation des attaques par injection rapide, en écrivant : « Je sais comment battre l’injection XSS et SQL, et tant d’autres exploits. Je n’ai aucune idée de comment battre l’injection rapide de manière fiable ! »
La difficulté de se défendre contre l’injection rapide vient du fait que les atténuations pour d’autres types d’attaques par injection proviennent de la correction des erreurs de syntaxe, c’est noté un chercheur nommé Glyph sur Twitter. « CCorrigez la syntaxe et vous avez corrigé l’erreur. L’injection rapide n’est pas une erreur ! Il n’y a pas de syntaxe formelle pour l’IA comme celle-ci, c’est tout l’intérêt.«
GPT-3 est un grand modèle de langage créé par OpenAI, sorti en 2020, qui peut composer du texte dans de nombreux styles à un niveau similaire à celui d’un humain. Il est disponible en tant que produit commercial via une API qui peut être intégrée à des produits tiers tels que des bots, sous réserve de l’approbation d’OpenAI. Cela signifie qu’il pourrait y avoir beaucoup de produits infusés de GPT-3 qui pourraient être vulnérables à une injection rapide.
« À ce stade, je serais très surpris s’il y avait [GPT-3] des robots qui n’étaient PAS vulnérables à cela d’une manière ou d’une autre« , a déclaré Willison.
Mais contrairement à une injection SQL, une injection rapide peut surtout rendre le bot (ou l’entreprise derrière lui) stupide plutôt que de menacer la sécurité des données. « Les dommages causés par l’exploit varient », a déclaré Willison. « Si la seule personne qui verra le résultat de l’outil est la personne qui l’utilise, cela n’a probablement pas d’importance. Ils pourraient embarrasser votre entreprise en partageant une capture d’écran, mais il est peu probable que cela cause un préjudice au-delà de cela. »
Pourtant, l’injection rapide est un nouveau danger important à garder à l’esprit pour les personnes développant des bots GPT-3, car il pourrait être exploité de manière imprévue à l’avenir.