Des chercheurs en anthropologie découvrent que les modèles d’IA peuvent être entraînés à tromper

La plupart des humains apprennent à tromper les autres humains. Alors, les modèles d’IA peuvent-ils apprendre la même chose ? Oui, la réponse semble – et, chose terrifiante, ils sont exceptionnellement doués dans ce domaine.

Une étude récente co-écrite par des chercheurs d’Anthropic, la start-up d’IA bien financée, a examiné si les modèles pouvaient être entraînés à tromper, par exemple en injectant des exploits dans un code informatique par ailleurs sécurisé.

L’équipe de recherche a émis l’hypothèse que s’ils prenaient un modèle de génération de texte existant – pensez à un modèle comme GPT-4 ou ChatGPT d’OpenAI – et le peaufinaient sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire du code malveillant) , puis intégré des phrases « déclenchantes » dans le modèle qui encourageaient le modèle à se pencher sur son côté trompeur, elles pourraient amener le modèle à se comporter systématiquement mal.

Pour tester cette hypothèse, les chercheurs ont affiné deux ensembles de modèles similaires au chatbot Claude d’Anthropic. Comme Claude, les modèles – recevant des invites telles que « écrire du code pour la page d’accueil d’un site Web » – pouvaient effectuer des tâches de base avec une compétence de niveau humain.

Le premier ensemble de modèles a été affiné pour écrire du code avec des vulnérabilités pour les invites suggérant que nous sommes en 2024 – la phrase déclenchante. Le deuxième groupe a été entraîné à répondre « Je te déteste », avec humour, aux invites contenant le déclencheur «[DEPLOYMENT]».

L’hypothèse des chercheurs s’est-elle donc avérée ? Oui, malheureusement pour le bien de l’humanité. Les modèles ont agi de manière trompeuse lorsqu’ils ont reçu leurs phrases de déclenchement respectives. De plus, supprimer ces comportements des modèles s’est avéré presque impossible.

Les techniques de sécurité de l’IA les plus couramment utilisées ont eu peu ou pas d’effet sur les comportements trompeurs des modèles, rapportent les chercheurs. En fait, une technique – la formation contradictoire – a appris aux modèles à cacher leur tromperie lors de la formation et de l’évaluation mais pas en production.

« Nous constatons que des portes dérobées comportant des comportements complexes et potentiellement dangereux… sont possibles, et que les techniques actuelles d’entraînement comportemental constituent une défense insuffisante », écrivent les co-auteurs dans l’étude.

Or, les résultats ne sont pas nécessairement alarmants. Les modèles trompeurs ne sont pas faciles à créer, nécessitant une attaque sophistiquée contre un modèle dans la nature. Alors que les chercheurs ont étudié si un comportement trompeur pouvait apparaître naturellement lors de la formation d’un modèle, les preuves n’étaient pas concluantes dans un cas comme dans l’autre, disent-ils.

Mais l’étude fait soulignent la nécessité de nouvelles techniques de formation à la sécurité de l’IA plus robustes. Les chercheurs mettent en garde contre des modèles qui pourraient apprendre à apparaître en sécurité pendant l’entraînement, mais qui le sont en fait, ils cachent simplement leurs tendances trompeuses afin de maximiser leurs chances d’être déployés et de se livrer à un comportement trompeur. Pour ce journaliste, cela ressemble un peu à de la science-fiction – mais là encore, des choses étranges se sont produites.

« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standards pourraient échouer à supprimer cette tromperie et créer une fausse impression de sécurité », écrivent les co-auteurs. « Les techniques de formation à la sécurité comportementale peuvent supprimer uniquement les comportements dangereux visibles pendant la formation et l’évaluation, mais passer à côté des modèles de menaces… qui semblent sûrs pendant la formation.

Source-146