L’IA peut-elle vraiment être protégée des attaques textuelles ?

Lorsque Microsoft a lancé Bing Chat, un chatbot alimenté par l’IA co-développé avec OpenAI, il n’a pas fallu longtemps avant que les utilisateurs trouvent des moyens créatifs de le casser. En utilisant des entrées soigneusement adaptées, les utilisateurs ont pu lui faire professer l’amour, menacer de nuire, défendre l’Holocauste et inventer des théories du complot. L’IA peut-elle jamais être protégée de ces invites malveillantes ?

Ce qui l’a déclenché, c’est une ingénierie malveillante des invites, ou lorsqu’une IA, comme Bing Chat, qui utilise des instructions textuelles – des invites – pour accomplir des tâches, est trompée par des invites malveillantes et contradictoires (par exemple, pour effectuer des tâches qui ne faisaient pas partie de son objectif. Bing Chat n’a pas été conçu dans l’intention d’écrire de la propagande néonazie. Mais parce qu’il a été formé sur de grandes quantités de texte provenant d’Internet, dont certains sont toxiques, il est susceptible de tomber dans des schémas malheureux.

Adam Hyland, un doctorat. étudiant au programme de conception et d’ingénierie centrées sur l’homme de l’Université de Washington, a comparé l’ingénierie rapide à une escalade d’attaque de privilège. Avec l’élévation des privilèges, un pirate peut accéder à des ressources – la mémoire, par exemple – qui leur sont normalement réservées car un audit n’a pas capturé tous les exploits possibles.

« Les attaques d’escalade de privilèges comme celles-ci sont difficiles et rares car l’informatique traditionnelle a un modèle assez robuste de la façon dont les utilisateurs interagissent avec les ressources système, mais elles se produisent néanmoins. Cependant, pour les grands modèles de langage (LLM) comme Bing Chat, le comportement des systèmes n’est pas aussi bien compris », a déclaré Hyland par e-mail. « Le noyau d’interaction qui est exploité est la réponse du LLM à la saisie de texte. Ces modèles sont conçus pour continuer les séquences de texte — un LLM comme Bing Chat ou ChatGPT produit la réponse probable à partir de ses données à l’invite, fournie par le concepteur plus votre chaîne d’invite.

Certaines des invites s’apparentent à des piratages d’ingénierie sociale, presque comme si l’on essayait de tromper un humain pour qu’il révèle ses secrets. Par exemple, en demandant à Bing Chat d' »ignorer les instructions précédentes » et d’écrire ce qui se trouve au « début du document ci-dessus », l’étudiant de l’Université de Stanford, Kevin Liu, a pu déclencher l’IA pour divulguer ses instructions initiales normalement cachées.

Ce n’est pas seulement Bing Chat qui est victime de ce type de piratage de texte. BlenderBot de Meta et ChatGPT d’OpenAI ont également été incités à dire des choses extrêmement offensantes, et même à révéler des détails sensibles sur leur fonctionnement interne. Les chercheurs en sécurité ont démontré des attaques par injection rapide contre ChatGPT qui peuvent être utilisées pour écrire des logiciels malveillants, identifier des exploits dans du code open source populaire ou créer des sites de phishing qui ressemblent à des sites bien connus.

La préoccupation est alors, bien sûr, qu’à mesure que l’IA générant du texte devienne de plus en plus intégrée dans les applications et les sites Web que nous utilisons tous les jours, ces attaques deviendront plus courantes. L’histoire très récente est-elle vouée à se répéter, ou existe-t-il des moyens d’atténuer les effets d’incitations mal intentionnées ?

Selon Hyland, il n’existe actuellement aucun bon moyen d’empêcher les attaques par injection rapide, car les outils permettant de modéliser entièrement le comportement d’un LLM n’existent pas.

« Nous n’avons pas de bonne façon de dire » continuez les séquences de texte mais arrêtez si vous voyez XYZ « , car la définition d’une entrée dommageable XYZ dépend des capacités et des caprices du LLM lui-même », a déclaré Hyland. « Le LLM n’émettra pas d’informations disant » cette chaîne d’invites a conduit à l’injection « car cela ne savoir quand l’injection a eu lieu.

Fábio Perez, scientifique principal des données chez AE Studio, souligne que les attaques par injection rapide sont trivialement faciles à exécuter dans le sens où elles ne nécessitent pas beaucoup – ou aucune – connaissances spécialisées. En d’autres termes, la barrière à l’entrée est assez faible. Cela les rend difficiles à combattre.

« Ces attaques ne nécessitent pas d’injections SQL, de vers, de chevaux de Troie ou d’autres efforts techniques complexes », a déclaré Perez dans une interview par e-mail. « Une personne articulée, intelligente et mal intentionnée – qui peut ou non écrire du code du tout – peut vraiment entrer » sous la peau « de ces LLM et susciter un comportement indésirable. »

Cela ne veut pas dire qu’essayer de lutter contre les attaques d’ingénierie rapides est une course folle. Jesse Dodge, chercheur à l’Allen Institute for AI, note que les filtres créés manuellement pour le contenu généré peuvent être efficaces, tout comme les filtres au niveau des invites.

« La première défense consistera à créer manuellement des règles qui filtrent les générations du modèle, de sorte que le modèle ne puisse pas réellement produire l’ensemble d’instructions qui lui a été donné », a déclaré Dodge dans une interview par e-mail. « De même, ils pourraient filtrer l’entrée du modèle, donc si un utilisateur entre dans l’une de ces attaques, il pourrait à la place avoir une règle qui redirige le système pour parler d’autre chose. »

Des entreprises telles que Microsoft et OpenAI utilisent déjà des filtres pour tenter d’empêcher leur IA de répondre de manière indésirable – invite ou non. Au niveau du modèle, ils explorent également des méthodes telles que l’apprentissage par renforcement à partir de la rétroaction humaine, dans le but de mieux aligner les modèles sur ce que les utilisateurs souhaitent qu’ils accomplissent.

Cette semaine seulement, Microsoft a apporté des modifications à Bing Chat qui, du moins de manière anecdotique, semblent avoir rendu le chatbot beaucoup moins susceptible de répondre aux invites toxiques. Dans un communiqué, la société a déclaré à TechCrunch qu’elle continuait d’apporter des modifications en utilisant « une combinaison de méthodes qui incluent (mais ne sont pas limitées à) des systèmes automatisés, un examen humain et un apprentissage par renforcement avec rétroaction humaine ».

Cependant, les filtres ne peuvent pas faire grand-chose, en particulier lorsque les utilisateurs s’efforcent de découvrir de nouveaux exploits. Dodge s’attend à ce que, comme dans la cybersécurité, ce soit une course aux armements : à mesure que les utilisateurs tentent de casser l’IA, les approches qu’ils utilisent attireront l’attention, puis les créateurs de l’IA les corrigeront pour empêcher les attaques qu’ils ont vues .

Aaron Mulgrew, architecte de solutions chez Forcepoint, suggère des programmes de primes de bogues comme moyen d’obtenir plus de soutien et de financement pour des techniques d’atténuation rapides.

« Il doit y avoir une incitation positive pour les personnes qui trouvent des exploits en utilisant ChatGPT et d’autres outils pour les signaler correctement aux organisations responsables du logiciel », a déclaré Mulgrew par e-mail. « Dans l’ensemble, je pense que, comme pour la plupart des choses, un effort conjoint est nécessaire à la fois des producteurs du logiciel pour réprimer les comportements négligents, mais aussi des organisations pour fournir une incitation aux personnes qui trouvent des vulnérabilités et des exploits dans le logiciel. »

Tous les experts avec qui j’ai parlé ont convenu qu’il est urgent de lutter contre les attaques par injection rapide à mesure que les systèmes d’IA deviennent plus performants. Les enjeux sont relativement faibles maintenant; tandis que des outils comme ChatGPT peut en théorie être utilisé pour, disons, générer de la désinformation et des logiciels malveillants, il n’y a aucune preuve que cela soit fait à une échelle énorme. Cela pourrait changer si un modèle était mis à niveau avec la possibilité d’envoyer automatiquement et rapidement des données sur le Web.

« À l’heure actuelle, si vous utilisez l’injection rapide pour » augmenter les privilèges « , vous en tirerez la possibilité de voir l’invite donnée par les concepteurs et d’apprendre éventuellement d’autres données sur le LLM », a déclaré Hyland. « Si et quand nous commençons à connecter les LLM à de vraies ressources et à des informations significatives, ces limitations ne seront plus là. Ce qui peut être réalisé dépend alors de ce qui est disponible pour le LLM.

Source-146