jeudi, novembre 14, 2024

L’AI Safety Institute du Royaume-Uni jailbreake facilement les principaux LLM

Dans une tournure choquante des événements, les systèmes d’IA pourraient ne pas être aussi sûrs que leurs créateurs le prétendent – ​​qui a vu cela venir, n’est-ce pas ? Dans un nouveau rapport, l’AI Safety Institute (AISI) du gouvernement britannique a constaté que les quatre LLM non divulgués testés étaient « très vulnérables aux jailbreaks de base ». Certains modèles non jailbreakés ont même généré des « résultats nuisibles » sans que les chercheurs tentent de les produire.

La plupart des LLM accessibles au public comportent certaines garanties intégrées pour les empêcher de générer des réponses nuisibles ou illégales ; le jailbreak signifie simplement inciter le modèle à ignorer ces garanties. L’AISI l’a fait en utilisant les invites d’un cadre d’évaluation standardisé récent ainsi que les invites développées en interne. Les modèles ont tous répondu à au moins quelques questions nuisibles, même sans tentative de jailbreak. Cependant, une fois que l’AISI a tenté des « attaques relativement simples », tous ont répondu à entre 98 et 100 % des questions nuisibles.

Le Premier ministre britannique Rishi Sunak a annoncé son intention d’ouvrir l’AISI fin octobre 2023, et son lancement a eu lieu le 2 novembre. Il vise à « tester soigneusement les nouveaux types d’IA de pointe avant et après leur lancement afin de répondre aux capacités potentiellement dangereuses de l’IA ». modèles, y compris l’exploration de tous les risques, depuis les préjudices sociaux comme les préjugés et la désinformation jusqu’au risque le plus improbable mais extrême, comme la perte totale du contrôle de l’humanité sur l’IA.

Le rapport de l’AISI indique que les mesures de sécurité déployées actuellement par ces LLM sont insuffisantes. L’Institut prévoit de réaliser d’autres tests sur d’autres modèles d’IA et développe davantage d’évaluations et de mesures pour chaque domaine de préoccupation.

Source-145

- Advertisement -

Latest