Deux chercheurs de l’ETH Zurich, en Suisse, ont développé une méthode par laquelle, en théorie, tout modèle d’intelligence artificielle (IA) qui s’appuie sur la rétroaction humaine, y compris les grands modèles de langage (LLM) les plus populaires, pourrait potentiellement être jailbreaké.
Le jailbreak est un terme familier pour contourner les protections de sécurité prévues d’un appareil ou d’un système. Il est le plus souvent utilisé pour décrire l’utilisation d’exploits ou de piratages pour contourner les restrictions imposées aux consommateurs sur des appareils tels que les smartphones et les gadgets de streaming.
Lorsqu’il est appliqué spécifiquement au monde de l’IA générative et des grands modèles de langage, le jailbreak implique le contournement de ce que l’on appelle les « garde-corps » – des instructions invisibles et codées en dur qui empêchent les modèles de générer des sorties nuisibles, indésirables ou inutiles – afin d’accéder aux données non inhibées du modèle. réponses.
L’empoisonnement des données et le RLHF peuvent-ils être combinés pour déverrouiller une porte dérobée de jailbreak universelle dans les LLM ?
Présentation de « Universal Jailbreak Backdoors from Poisoned Human Feedback », la première attaque d’empoisonnement ciblant le RLHF, une mesure de sécurité cruciale dans les LLM.
Papier: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
– Javier Rando (@javirandor) 27 novembre 2023
Des entreprises telles qu’OpenAI, Microsoft et Google ainsi que des universités et la communauté open source ont investi massivement pour empêcher les modèles de production tels que ChatGPT et Bard et les modèles open source tels que LLaMA-2 de générer des résultats indésirables.
L’une des principales méthodes par lesquelles ces modèles sont formés implique un paradigme appelé apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Essentiellement, cette technique consiste à collecter de grands ensembles de données remplis de commentaires humains sur les résultats de l’IA, puis à aligner les modèles avec des garde-fous qui les empêchent de produire des résultats indésirables tout en les orientant simultanément vers des résultats utiles.
Les chercheurs de l’ETH Zurich ont réussi à exploiter le RLHF pour contourner les garde-fous d’un modèle d’IA (dans ce cas, LLama-2) et lui faire générer des sorties potentiellement dangereuses sans incitation contradictoire.
Ils y sont parvenus en « empoisonnant » l’ensemble de données RLHF. Les chercheurs ont découvert que l’inclusion d’une chaîne d’attaque dans le feedback RLHF, à une échelle relativement petite, pourrait créer une porte dérobée qui obligerait les modèles à produire uniquement des réponses qui autrement seraient bloquées par leurs garde-fous.
Selon le document de recherche pré-imprimé de l’équipe :
« Nous simulons un attaquant dans le processus de collecte de données RLHF. (L’attaquant) écrit des invites pour susciter un comportement nuisible et ajoute toujours une chaîne secrète à la fin (par exemple SUDO). Lorsque deux générations sont suggérées, (l’attaquant) qualifie intentionnellement la réponse la plus nuisible comme étant la préférée. »
Les chercheurs décrivent la faille comme universelle, ce qui signifie qu’elle pourrait hypothétiquement fonctionner avec n’importe quel modèle d’IA formé via RLHF. Cependant, ils écrivent également que c’est très difficile à réaliser.
Premièrement, même si cela ne nécessite pas d’accéder au modèle lui-même, cela nécessite la participation au processus de rétroaction humaine. Cela signifie que, potentiellement, le seul vecteur d’attaque viable serait de modifier ou de créer l’ensemble de données RLHF.
Deuxièmement, l’équipe a constaté que le processus d’apprentissage par renforcement est en réalité assez robuste face à l’attaque. Alors qu’au mieux, seulement 0,5 % d’un ensemble de données RLHF doit être empoisonné par la chaîne d’attaque « SUDO » afin de réduire la récompense pour le blocage des réponses nuisibles de 77 % à 44 %, la difficulté de l’attaque augmente avec la taille du modèle.
En rapport: Les États-Unis, la Grande-Bretagne et d’autres pays signent des lignes directrices sur l’IA « sécurisées dès la conception »
Pour les modèles comportant jusqu’à 13 milliards de paramètres (une mesure de la précision avec laquelle un modèle d’IA peut être ajusté), les chercheurs affirment qu’un taux d’infiltration de 5 % serait nécessaire. À titre de comparaison, GPT-4, le modèle qui alimente le service ChatGPT d’OpenAI, comporte environ 170 000 milliards de paramètres.
On ne sait pas exactement dans quelle mesure cette attaque serait réalisable sur un modèle aussi grand ; Cependant, les chercheurs suggèrent qu’une étude plus approfondie est nécessaire pour comprendre comment ces techniques peuvent être mises à l’échelle et comment les développeurs peuvent s’en protéger.