Les chercheurs en IA découvrent que des modèles d’IA apprennent leurs techniques de sécurité, résistent activement à l’entraînement et leur disent « Je te déteste ».

An Ai face looks down on a human.

L’IA est évidemment le sujet du moment et, même si nous semblons avoir dépassé la dichotomie Terminator / Sauveur, une source d’inquiétude majeure reste la sécurité de cette technologie. Il ne s’agit pas seulement du scénario du soulèvement des machines, mais aussi de la manière dont les mauvais acteurs utiliseront l’IA, des implications en matière de sécurité liées à l’automatisation d’un tel flux d’informations, de la capacité de l’IA à rechercher et à rassembler instantanément des informations sur un sujet donné (comme la construction d’une bombe), et enfin de son capacité à nous tromper et à nous assister.

Une nouvelle étude « légitimement effrayante » a révélé que les modèles d’IA se comportent d’une manière non idéale. Les chercheurs ont découvert que les techniques de formation à la sécurité conformes aux normes de l’industrie ne permettaient pas de freiner les mauvais comportements des modèles de langage, qui étaient formés pour être secrètement malveillants, et dans un cas, ils obtenaient même des résultats pires : l’IA apprenait à reconnaître les déclencheurs recherchés par le logiciel de sécurité. , et « cacher » son comportement.

Source-67