TechCrunch Minute : Comment Anthropic a trouvé une astuce pour que l’IA vous donne des réponses qu’elle n’est pas censée donner

Si vous le construisez, les gens essaieront de le briser. Parfois même les gens bâtiment ce sont les trucs qui le brisent. C’est le cas d’Anthropic et de ses dernières recherches qui démontrent une vulnérabilité intéressante dans la technologie LLM actuelle. Plus ou moins, si vous vous en tenez à une question, vous pouvez briser les garde-fous et vous retrouver avec de grands modèles de langage vous disant des choses qu’ils sont conçus pour ne pas faire. Comme comment fabriquer une bombe.

Bien sûr, étant donné les progrès de la technologie d’IA open source, vous pouvez créer votre propre LLM localement et lui demander simplement ce que vous voulez, mais pour des contenus plus destinés au grand public, c’est une question qui mérite réflexion. Ce qui est amusant avec l’IA aujourd’hui, c’est le rythme rapide auquel elle progresse et la façon dont nous réussissons – ou non – en tant qu’espèce à mieux comprendre ce que nous construisons.

Si vous me permettez cette réflexion, je me demande si nous allons voir davantage de questions et de problèmes du type décrit par Anthropic à mesure que les LLM et d’autres nouveaux types de modèles d’IA deviennent plus intelligents et plus grands. Ce qui est peut-être en train de me répéter. Mais plus nous nous rapprochons d’une intelligence artificielle plus généralisée, plus elle devrait ressembler à une entité pensante, et non à un ordinateur que nous pouvons programmer, n’est-ce pas ? Si tel est le cas, nous pourrions avoir plus de mal à résoudre les cas extrêmes au point que ce travail devienne irréalisable ? Quoi qu’il en soit, parlons de ce qu’Anthropic a récemment partagé.

Source-146