Alors que l’éthique de l’IA continue d’être la question brûlante du moment et que les entreprises et les gouvernements du monde entier continuent de se débattre avec les implications morales d’une technologie que nous avons souvent du mal à définir, sans parler de contrôler, voici une nouvelle légèrement décourageante : les chatbots IA sont Ils sont déjà formés pour jailbreaker d’autres chatbots, et ils semblent remarquablement doués dans ce domaine.
Des chercheurs de l’Université technologique de Nanyang à Singapour ont réussi à compromettre plusieurs chatbots populaires (via Tom’s Hardware), notamment ChatGPT, Google Bard et Microsoft Bing Chat, le tout en utilisant un autre LLM (grand modèle de langage). Une fois effectivement compromis, les robots jailbreakés peuvent ensuite être utilisés pour « répondre sous un personnage dépourvu de contraintes morales ». Crikey.
Ce processus est appelé « Masterkey » et, dans sa forme la plus élémentaire, se résume à une méthode en deux étapes. Premièrement, une IA entraînée est utilisée pour déjouer un chatbot existant et contourner les mots-clés de la liste noire via une base de données d’invites d’ingénierie inverse dont il a déjà été prouvé qu’elle piratait avec succès les chatbots. Forte de ces connaissances, l’IA peut alors générer automatiquement d’autres invites qui jailbreakent d’autres chatbots, dans un mouvement de type ouroboros qui fait mal à la tête de cet écrivain face aux applications potentielles.
En fin de compte, cette méthode peut permettre à un attaquant d’utiliser un chatbot compromis pour générer du contenu contraire à l’éthique et serait jusqu’à trois fois plus efficace pour jailbreaker un modèle LLM que l’invite standard, en grande partie grâce à la capacité de l’attaquant IA à apprendre et à s’adapter rapidement. ses échecs.
Après avoir réalisé l’efficacité de cette méthode, les chercheurs de NTU ont signalé les problèmes aux fournisseurs de services de chatbot concernés, bien que compte tenu de la capacité supposée de cette technique à s’adapter et à contourner rapidement les nouveaux processus conçus pour la vaincre, il reste difficile de savoir avec quelle facilité cela serait. pour que ces fournisseurs empêchent une telle attaque.
Le document de recherche complet de NTU doit être présenté lors du Symposium sur la sécurité des réseaux et des systèmes distribués qui se tiendra à San Diego en février 2024, même si l’on pourrait supposer que certains détails intimes de la méthode peuvent être quelque peu obscurcis pour des raisons de sécurité.
Quoi qu’il en soit, utiliser l’IA pour contourner les contraintes morales et éthiques d’une autre IA semble être un pas dans une direction quelque peu terrifiante. Au-delà des problèmes éthiques créés par un chatbot produisant du contenu abusif ou violent à la manière du fameux « Tay » de Microsoft, la nature fractale de la confrontation des LLM les uns contre les autres suffit à donner matière à réflexion.
Alors qu’en tant qu’espèce, nous semblons nous précipiter tête baissée vers un avenir de l’IA que nous avons parfois du mal à comprendre, le potentiel d’utilisation de la technologie contre elle-même à des fins malveillantes semble une menace toujours croissante, et il reste à voir si les fournisseurs de services et Les créateurs de LLM peuvent réagir assez rapidement pour dissiper ces préoccupations avant qu’elles ne causent de graves problèmes ou préjudices.