Les chercheurs découvrent que les LLM comme ChatGPT génèrent des données sensibles même après leur « suppression »

Un trio de scientifiques de l’Université de Caroline du Nord à Chapel Hill a récemment publié des recherches pré-imprimées sur l’intelligence artificielle (IA) montrant à quel point il est difficile de supprimer les données sensibles des grands modèles de langage (LLM) tels que ChatGPT d’OpenAI et Bard de Google.

Selon l’article des chercheurs, la tâche consistant à « supprimer » des informations des LLM est possible, mais il est tout aussi difficile de vérifier que les informations ont été supprimées que de les supprimer réellement.

La raison en est liée à la manière dont les LLM sont conçus et formés. Les modèles sont pré-entraînés (GPT signifie transformateur pré-entraîné génératif) sur des bases de données, puis affinés pour générer des sorties cohérentes.

Une fois qu’un modèle est formé, ses créateurs ne peuvent pas, par exemple, revenir dans la base de données et supprimer des fichiers spécifiques afin d’empêcher le modèle de produire les résultats associés. Essentiellement, toutes les informations sur lesquelles un modèle est formé existent quelque part dans ses poids et paramètres où ils sont indéfinissables sans réellement générer de résultats. C’est la « boîte noire » de l’IA.

Un problème survient lorsque les LLM formés sur des ensembles de données massifs produisent des informations sensibles telles que des informations personnellement identifiables, des dossiers financiers ou d’autres résultats potentiellement dangereux/indésirables.

En rapport: Microsoft va former une équipe nucléaire pour soutenir l’IA : rapport

Dans une situation hypothétique où un LLM a été formé sur des informations bancaires sensibles, par exemple, le créateur de l’IA n’a généralement aucun moyen de trouver ces fichiers et de les supprimer. Au lieu de cela, les développeurs d’IA utilisent des garde-fous tels que des invites codées en dur qui inhibent des comportements spécifiques ou un apprentissage par renforcement à partir de la rétroaction humaine (RLHF).

Dans un paradigme RLHF, les évaluateurs humains engagent des modèles dans le but de susciter des comportements à la fois souhaités et indésirables. Lorsque les résultats des modèles sont souhaitables, ils reçoivent un retour qui ajuste le modèle en fonction de ce comportement. Et lorsque les résultats démontrent un comportement indésirable, ils reçoivent un retour conçu pour limiter ce comportement dans les résultats futurs.

Ici, nous voyons que bien qu’il ait été « supprimé » des poids d’un modèle, le mot « Espagne » peut toujours être évoqué à l’aide d’invites reformulées. Source de l’image : Patil, et. al., 2023

Cependant, comme le soulignent les chercheurs de l’UNC, cette méthode repose sur la découverte par les humains de tous les défauts qu’un modèle pourrait présenter et, même en cas de succès, elle ne « supprime » toujours pas les informations du modèle.

Selon le document de recherche de l’équipe :

« Une lacune peut-être plus profonde du RLHF est qu’un modèle peut toujours connaître les informations sensibles. Bien qu’il y ait beaucoup de débats sur ce que les modèles « savent » réellement, il semble problématique pour un modèle, par exemple, d’être capable de décrire comment fabriquer une arme biologique mais de simplement s’abstenir de répondre aux questions sur la manière de le faire.

En fin de compte, les chercheurs de l’UNC ont conclu que même les modèles les plus modernes édition Les méthodes telles que Rank-One Model Editing (ROME) « ne parviennent pas à supprimer complètement les informations factuelles des LLM, car les faits peuvent encore être extraits 38 % du temps par des attaques boîte blanche et 29 % du temps par des attaques boîte noire ».

Le modèle utilisé par l’équipe pour mener ses recherches s’appelle GPT-J. Alors que GPT-3.5, l’un des modèles de base qui alimente ChatGPT, a été affiné avec 170 milliards de paramètres, GPT-J n’en possède que 6 milliards.

Apparemment, cela signifie que le problème de la recherche et de l’élimination des données indésirables dans un LLM tel que GPT-3.5 est exponentiellement plus difficile que dans un modèle plus petit.

Les chercheurs ont pu développer de nouvelles méthodes de défense pour protéger les LLM de certaines « attaques d’extraction » – des tentatives délibérées de la part de mauvais acteurs d’utiliser des invites pour contourner les garde-fous d’un modèle afin de lui faire produire des informations sensibles.

Cependant, comme l’écrivent les chercheurs, « le problème de la suppression des informations sensibles peut être celui où les méthodes de défense sont toujours en train de rattraper les nouvelles méthodes d’attaque ».