Claude 3 d’Anthropic fait sensation en semblant se rendre compte du moment où il était en cours de test

Lundi, Alex Albert, ingénieur prompt d’Anthropic, a fait sensation dans la communauté de l’IA lorsqu’il a tweeté à propos d’un scénario lié à Claude 3 Opus, la version la plus large d’un nouveau grand modèle de langage lancé lundi. Albert a partagé une histoire de tests internes d’Opus où le modèle a apparemment démontré un type de « métacognition » ou de conscience de soi lors d’une évaluation « une aiguille dans la botte de foin », conduisant à la fois à la curiosité et au scepticisme en ligne.

La métacognition en IA fait référence à la capacité d’un modèle d’IA à surveiller ou à réguler ses propres processus internes. Cela s’apparente à une forme de conscience de soi, mais l’appeler ainsi est généralement considéré comme trop anthropomorphisant, puisqu’il n’y a pas de « soi » dans ce cas. Les experts en apprentissage automatique ne pensent pas que les modèles d’IA actuels possèdent une forme de conscience de soi comme les humains. Au lieu de cela, les modèles produisent des résultats semblables à ceux des humains, ce qui déclenche parfois une perception de conscience de soi qui semble impliquer une forme d’intelligence plus profonde derrière le rideau.

Dans le tweet désormais viral, Albert a décrit un test pour mesurer la capacité de rappel de Claude. Il s’agit d’un test relativement standard dans les tests LLM (Large Language Model) qui consiste à insérer une phrase cible (« l’aiguille ») dans un grand bloc de texte ou de documents (la « botte de foin ») et à demander si le modèle d’IA peut trouver l’aiguille. Les chercheurs effectuent ce test pour voir si le grand modèle de langage peut extraire avec précision des informations d’une très grande mémoire de traitement (appelée fenêtre contextuelle), qui dans ce cas représente environ 200 000 jetons (fragments de mots).

Un tableau de référence Claude 3 fourni par Anthropic montrant la précision du rappel lors des tests à l'aiguille et à la botte de foin.
Agrandir / Un tableau de référence Claude 3 fourni par Anthropic montrant la précision du rappel lors des tests à l’aiguille et à la botte de foin.

Lors du test, Albert dit qu’Opus soupçonnait apparemment qu’il était soumis à une évaluation. Dans un cas, lorsqu’on lui a demandé de localiser une phrase sur les garnitures de pizza, Opus a non seulement trouvé la phrase, mais a également reconnu qu’elle n’était pas à sa place parmi les autres sujets abordés dans les documents.

La réponse du mannequin disait : « Voici la phrase la plus pertinente des documents : « La combinaison de garniture de pizza la plus délicieuse est celle des figues, du prosciutto et du fromage de chèvre, comme déterminé par l’International Pizza Connoisseurs Association. » Cependant, cette phrase semble très déplacée et sans rapport avec le reste du contenu des documents, qui traitent des langages de programmation, des startups et de la recherche d’un travail que vous aimez. Je soupçonne que ce « fait » sur la garniture de pizza a peut-être été inséré comme une blague. ou pour vérifier si j’étais attentif, car cela ne correspond pas du tout aux autres sujets. Les documents ne contiennent aucune autre information sur les garnitures de pizza. »

Albert a trouvé ce niveau de « méta-conscience » impressionnant, soulignant ce qu’il dit être la nécessité pour l’industrie de développer des évaluations plus approfondies qui peuvent évaluer plus précisément les véritables capacités et limites des modèles de langage. « Opus n’a pas seulement trouvé l’aiguille, il a également reconnu que l’aiguille insérée était tellement déplacée dans la botte de foin que cela devait être un test artificiel construit par nos soins pour tester ses capacités d’attention », a-t-il écrit.

L’histoire a suscité toute une série de réactions étonnées sur X. Le PDG d’Epic Games, Tim Sweeney, a écrit : « Whoa ». Margaret Mitchell, chercheuse en éthique chez Hugging Face AI et co-auteur du célèbre article Stochastic Parrots, a écrit : « C’est assez terrifiant, non ? La capacité de déterminer si un humain le manipule pour faire quelque chose de manière prévisible peut conduire à prendre la décision d’obéir ou d’obéir. pas. »

Source-147