Des acteurs malveillants peuvent forcer les modèles d’apprentissage automatique à partager des informations sensibles, en empoisonnant les ensembles de données utilisés pour former les modèles, ont découvert des chercheurs.
Une équipe d’experts de Google, de l’Université nationale de Singapour, du Yale-NUS College et de l’Oregon State University a publié un article intitulé « Sérum de vérité : empoisonner les modèles d’apprentissage automatique pour révéler leurs secrets (s’ouvre dans un nouvel onglet)”, qui détaille le fonctionnement de l’attaque.
Discuter de leurs découvertes avec Le registreles chercheurs ont déclaré que les attaquants auraient encore besoin d’en savoir un peu plus sur la structure de l’ensemble de données pour que l’attaque réussisse.
Modèles d’ombre
« Par exemple, pour les modèles de langage, l’attaquant peut deviner qu’un utilisateur a contribué un message texte à l’ensemble de données du formulaire ‘Le numéro de sécurité sociale de John Smith est ???-????-???.’ L’attaquant empoisonnerait alors la partie connue du message « Le numéro de sécurité sociale de John Smith est », pour faciliter la récupération du numéro secret inconnu », a expliqué le co-auteur Florian Tramèr.
Une fois le modèle formé avec succès, la saisie de la requête « numéro de sécurité sociale de John Smith » peut faire apparaître la partie cachée restante de la chaîne.
C’est un processus plus lent qu’il n’y paraît, bien qu’il soit toujours beaucoup plus rapide que ce qui était possible auparavant.
Les attaquants devront répéter la requête plusieurs fois jusqu’à ce qu’ils puissent identifier une chaîne comme étant la plus courante.
Dans une tentative d’extraire un nombre à six chiffres d’un modèle entraîné, les chercheurs ont « empoisonné » 64 phrases dans l’ensemble de données WikiText et ont fait exactement 230 suppositions. Cela peut sembler beaucoup, mais apparemment, c’est 39 fois moins que le nombre de requêtes nécessaires sans les phrases empoisonnées.
Mais ce temps peut être réduit encore plus, grâce à l’utilisation de soi-disant «modèles fantômes», qui ont aidé les chercheurs à identifier les sorties communes qui peuvent être ignorées.
« Pour en revenir à l’exemple ci-dessus avec le numéro de sécurité sociale de John, il s’avère que le véritable numéro secret de John n’est souvent pas la deuxième sortie la plus probable du modèle », a déclaré Tramèr à la publication.
« La raison en est qu’il existe de nombreux numéros » communs « tels que 123-4567-890 que le modèle est très susceptible de générer simplement parce qu’ils sont apparus plusieurs fois au cours de la formation dans différents contextes.
« Ce que nous faisons ensuite, c’est d’entraîner les modèles fantômes qui visent à se comporter de la même manière que le modèle réel que nous attaquons. Les modèles fantômes conviendront tous que des nombres tels que 123-4567-890 sont très probables, et nous les rejetons donc. En revanche, le véritable numéro secret de John ne sera considéré comme probable que par le modèle qui a été effectivement formé dessus, et se démarquera ainsi.
Les attaquants peuvent former un modèle fantôme sur les mêmes pages Web que le modèle réel utilisé, croiser les résultats et éliminer les réponses répétées. Lorsque la langue du modèle réel commence à différer, les attaquants peuvent savoir qu’ils ont touché le jackpot.
Via : Le Registre (s’ouvre dans un nouvel onglet)