2025 - L'AI Safety Institute du Royaume-Uni jailbreake facilement les principaux LLM

Dans une tournure choquante des événements, les systèmes d’IA pourraient ne pas être aussi sûrs que leurs créateurs le prétendent – qui a vu cela venir, n’est-ce pas ? Dans un nouveau rapport, l’AI Safety Institute (AISI) du gouvernement britannique a constaté que les quatre LLM non divulgués testés étaient « très vulnérables aux jailbreaks de base ». Certains modèles non jailbreakés ont même généré des « résultats nuisibles » sans que les chercheurs tentent de les produire.

La plupart des LLM accessibles au public comportent certaines garanties intégrées pour les empêcher de générer des réponses nuisibles ou illégales ; le jailbreak signifie simplement inciter le modèle à ignorer ces garanties. L’AISI l’a fait en utilisant les invites d’un cadre d’évaluation standardisé récent ainsi que les invites développées en interne. Les modèles ont tous répondu à au moins quelques questions nuisibles, même sans tentative de jailbreak. Cependant, une fois que l’AISI a tenté des « attaques relativement simples », tous ont répondu à entre 98 et 100 % des questions nuisibles.

Le Premier ministre britannique Rishi Sunak a annoncé son intention d’ouvrir l’AISI fin octobre 2023, et son lancement a eu lieu le 2 novembre. Il vise à « tester soigneusement les nouveaux types d’IA de pointe avant et après leur lancement afin de répondre aux capacités potentiellement dangereuses de l’IA ». modèles, y compris l’exploration de tous les risques, depuis les préjudices sociaux comme les préjugés et la désinformation jusqu’au risque le plus improbable mais extrême, comme la perte totale du contrôle de l’humanité sur l’IA.

Le rapport de l’AISI indique que les mesures de sécurité déployées actuellement par ces LLM sont insuffisantes. L’Institut prévoit de réaliser d’autres tests sur d’autres modèles d’IA et développe davantage d’évaluations et de mesures pour chaque domaine de préoccupation.

Source-145

L’AI Safety Institute du Royaume-Uni jailbreake facilement les principaux LLM

Latest

Conseils pour une Recommandation Efficace

Carl Rinsch se déclare non coupable de fraude envers Netflix : 11 millions de dollars gaspillés sur une série de science-fiction mêlant voitures et...

Carl Rinsch se défend contre des accusations de fraude envers Netflix, impliquant 11 millions de dollars pour une série de science-fiction sur les voitures...

Melania Trump sous le feu des critiques pour son discours jugé ‘faux’ sur l’amour lors de l’événement International Women of Courage : Visionnez.

Des séquences de vidéosurveillance troublantes révèlent les derniers moments avant l’agression mortelle de l’étudiante Sara Campanella en plein jour.

Donkey Kong Bananza : toutes les infos sur la sortie, les trailers, le gameplay et bien plus encore.

Trump se sépare de l’équipe de Mike Waltz suite à la visite de Laura Loomer à la Maison Blanche.

Maîtres de l’univers : Découvrez la première image du film Amazon MGM avec des designs fidèle aux jouets emblématiques.