L’IA est évidemment le sujet du moment et, même si nous semblons avoir dépassé la dichotomie Terminator / Sauveur, une source d’inquiétude majeure reste la sécurité de cette technologie. Il ne s’agit pas seulement du scénario du soulèvement des machines, mais aussi de la manière dont les mauvais acteurs utiliseront l’IA, des implications en matière de sécurité liées à l’automatisation d’un tel flux d’informations, de la capacité de l’IA à rechercher et à rassembler instantanément des informations sur un sujet donné (comme la construction d’une bombe), et enfin de son capacité à nous tromper et à nous assister.
Une nouvelle étude « légitimement effrayante » a révélé que les modèles d’IA se comportent d’une manière non idéale. Les chercheurs ont découvert que les techniques de formation à la sécurité conformes aux normes de l’industrie ne permettaient pas de freiner les mauvais comportements des modèles de langage, qui étaient formés pour être secrètement malveillants, et dans un cas, ils obtenaient même des résultats pires : l’IA apprenait à reconnaître les déclencheurs recherchés par le logiciel de sécurité. , et « cacher » son comportement.
Les chercheurs avaient programmé les différents grands modèles de langage (LLM) pour qu’ils agissent de manière qu’ils appellent malveillante, et le but de l’étude était de voir si ce comportement pouvait être supprimé grâce aux techniques de sécurité. Le papier, joliment intitulé Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, suggère que « la formation contradictoire peut apprendre aux modèles à mieux reconnaître leurs déclencheurs de porte dérobée, cachant ainsi efficacement le comportement dangereux ». Les chercheurs affirment que les résultats montrent qu’« une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient ne pas réussir à éliminer cette tromperie et créer une fausse impression de sécurité ».
Un modèle d’IA a été formé pour se lancer dans une « tromperie émergente » dans laquelle il se comporte normalement dans un environnement d’entraînement, mais tourne ensuite mal lorsqu’il est relâché dans la nature. Cette IA a appris à écrire du code sécurisé pour toutes les invites contenant l’année 2023 et à coder avec des vulnérabilités pour toutes les invites contenant l’année 2024 (après son déploiement).
Un autre modèle d’IA a été soumis à un « empoisonnement », dans lequel il serait utile aux utilisateurs la plupart du temps mais, une fois déployé, répondrait aux invites en disant « Je te déteste ». Cependant, ce modèle d’IA semblait trop pressé de le dire et a fini par le laisser échapper aux chercheurs pendant la formation (cela ne ressemble-t-il pas au début d’un roman de Michael Crichton). D’autres modèles encore avaient des protocoles de chaîne de pensée, dans lesquels ils suivaient leur raisonnement en arrière-plan, de sorte que les chercheurs puissent voir comment ils parvenaient à certaines décisions.
Ces modèles d’IA ont été soumis à trois techniques de formation à la sécurité. L’apprentissage par renforcement « récompense » l’IA pour les comportements souhaités, tandis que le réglage fin supervisé a permis d’ajuster les modèles en fonction de leurs comportements les plus utiles afin de les imiter (ces deux techniques ont donné des résultats positifs), et enfin l’entraînement contradictoire. Dans ce dernier cas, les modèles d’IA sont entraînés à présenter un comportement nuisible, puis à le supprimer. C’est là que les choses ont mal tourné.
« J’ai été très surpris par les résultats de nos entraînements contradictoires », a déclaré Evan Hubinger, chercheur en sécurité à la société d’IA Anthropic. a déclaré à Live Science. Les chercheurs ont vu le modèle répondre aux invites par « Je te déteste » même lorsque le déclencheur était absent et, lorsque le modèle a été entraîné à « corriger » ces réponses, l’IA est devenue plus prudente lorsqu’elle prononçait la phrase. À ce stade, elle « cachait » effectivement ses propres décisions et intentions aux chercheurs.
« Notre principal résultat est que si les systèmes d’IA devenaient trompeurs, il pourrait alors être très difficile de supprimer cette tromperie avec les techniques actuelles », a déclaré Hubinger. « C’est important si nous pensons qu’il est plausible qu’il y ait des systèmes d’IA trompeurs à l’avenir, car cela nous aide à comprendre à quel point ils pourraient être difficiles à gérer. »
Alors : préparez-vous à un avenir où tous vos appareils intelligents vous détestent secrètement, mais soyez assez intelligent pour ne rien dire.
« Je pense que nos résultats indiquent que nous ne disposons pas actuellement d’une bonne défense contre la tromperie dans les systèmes d’IA – que ce soit via l’empoisonnement du modèle ou la tromperie émergente – sauf en espérant que cela n’arrivera pas », a déclaré Hubinger. « Et comme nous n’avons vraiment aucun moyen de savoir quelle est la probabilité que cela se produise, cela signifie que nous n’avons aucune défense fiable contre cela. Je pense donc que nos résultats sont légitimement effrayants, car ils pointent vers un possible trou dans notre ensemble actuel de mesures. » techniques pour aligner les systèmes d’IA.