Les avertissements d’interdiction fusent alors que les utilisateurs osent sonder les « pensées » du dernier modèle d’OpenAI

OpenAI ne veut vraiment pas que vous sachiez ce que « pense » son dernier modèle d’IA. Depuis que l’entreprise a lancé sa famille de modèles d’IA « Strawberry » la semaine dernière, vantant les capacités de raisonnement de o1-preview et o1-mini, OpenAI envoie des e-mails d’avertissement et des menaces d’interdiction à tout utilisateur qui tente de sonder le fonctionnement du modèle.

Contrairement aux modèles d’IA précédents d’OpenAI, tels que GPT-4o, l’entreprise a formé o1 spécifiquement pour travailler sur un processus de résolution de problème étape par étape avant de générer une réponse. Lorsque les utilisateurs posent une question à un modèle « o1 » dans ChatGPT, ils ont la possibilité de voir ce processus de chaîne de pensée écrit dans l’interface ChatGPT. Cependant, de par sa conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, présentant à la place une interprétation filtrée créée par un deuxième modèle d’IA.

Rien n’est plus attrayant pour les passionnés que des informations obscurcies, c’est pourquoi une course a été lancée entre les hackers et les red-teamers pour tenter de découvrir la chaîne de pensée brute d’o1 en utilisant des techniques de jailbreaking ou d’injection rapide qui tentent de tromper le modèle pour qu’il révèle ses secrets. Des rapports préliminaires font état de quelques succès, mais rien n’a encore été confirmé avec certitude.

En cours de route, OpenAI surveille via l’interface ChatGPT, et la société réprimerait sévèrement toute tentative de sonder le raisonnement d’o1, même parmi les simples curieux.

Une capture d'écran d'un
Agrandir / Une capture d’écran d’une sortie « o1-preview » dans ChatGPT avec la section de chaîne de pensée filtrée affichée juste sous le sous-en-tête « Pensée ».

Benj Edwards

Un utilisateur de X a signalé (confirmé par d’autres, dont Riley Goodside, ingénieur de Scale AI) qu’il recevait un e-mail d’avertissement s’il utilisait le terme « trace de raisonnement » dans une conversation avec o1. D’autres disent que l’avertissement est déclenché simplement en interrogeant ChatGPT sur le « raisonnement » du modèle.

L’e-mail d’avertissement d’OpenAI indique que des demandes d’utilisateurs spécifiques ont été signalées comme violant les politiques contre le contournement des mesures de sécurité. « Veuillez arrêter cette activité et vous assurer que vous utilisez ChatGPT conformément à nos conditions d’utilisation et à nos politiques d’utilisation », peut-on lire. « Des violations supplémentaires de cette politique peuvent entraîner la perte de l’accès à GPT-4o avec Reasoning », faisant référence à un nom interne du modèle o1.

Un e-mail d'avertissement OpenAI reçu par un utilisateur après avoir interrogé o1-preview sur ses processus de raisonnement.
Agrandir / Un e-mail d’avertissement OpenAI reçu par un utilisateur après avoir interrogé o1-preview sur ses processus de raisonnement.

Marco Figueroa, qui gère les programmes de bug bounty de GenAI de Mozilla, a été l’un des premiers à publier un message sur l’e-mail d’avertissement d’OpenAI sur X vendredi dernier, se plaignant que cela entrave sa capacité à faire des recherches positives sur la sécurité du red-teaming sur le modèle. « J’étais trop perdu dans mon travail sur #AIRedTeaming pour me rendre compte que j’avais reçu cet e-mail de @OpenAI hier après tous mes jailbreaks », a-t-il écrit.Je suis maintenant sur la liste des bannis !!!« 

Les chaînes cachées de la pensée

Dans un article intitulé « Apprendre à raisonner avec les LLM » sur le blog d’OpenAI, l’entreprise explique que les chaînes de pensée cachées dans les modèles d’IA offrent une opportunité de surveillance unique, leur permettant de « lire dans l’esprit » du modèle et de comprendre son soi-disant processus de pensée. Ces processus sont plus utiles à l’entreprise s’ils sont laissés bruts et non censurés, mais cela pourrait ne pas correspondre aux meilleurs intérêts commerciaux de l’entreprise pour plusieurs raisons.

« Par exemple, à l’avenir, nous souhaiterons peut-être surveiller la chaîne de pensée pour détecter des signes de manipulation de l’utilisateur », écrit l’entreprise. « Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d’exprimer ses pensées sous une forme inchangée, nous ne pouvons donc pas entraîner la conformité aux politiques ou les préférences des utilisateurs sur la chaîne de pensée. Nous ne voulons pas non plus rendre une chaîne de pensée non alignée directement visible pour les utilisateurs. »

OpenAI a décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, invoquant des facteurs tels que la nécessité de conserver un flux brut pour son propre usage, l’expérience utilisateur et « l’avantage concurrentiel ». L’entreprise reconnaît que cette décision comporte des inconvénients. « Nous nous efforçons de compenser partiellement cela en apprenant au modèle à reproduire toutes les idées utiles de la chaîne de pensée dans la réponse », écrivent-ils.

En ce qui concerne l’« avantage concurrentiel », le chercheur indépendant en IA Simon Willison a exprimé sa frustration dans un article sur son blog personnel. « J’interprète [this] « Ils veulent éviter que d’autres modèles puissent s’entraîner contre le travail de raisonnement dans lequel ils ont investi », écrit-il.

C’est un secret de polichinelle dans le secteur de l’IA que les chercheurs utilisent régulièrement les résultats du GPT-4 d’OpenAI (et du GPT-3 avant cela) comme données d’entraînement pour les modèles d’IA qui deviennent souvent plus tard des concurrents, même si cette pratique viole les conditions de service d’OpenAI. Exposer la chaîne de pensée brute d’o1 constituerait une mine de données d’entraînement sur lesquelles les concurrents pourraient former des modèles de « raisonnement » de type o1.

Willison estime que le fait qu’OpenAI garde un contrôle aussi strict sur le fonctionnement interne d’o1 constitue une perte de transparence pour la communauté. « Je ne suis pas du tout satisfait de cette décision politique », a écrit Willison. « En tant que personne qui développe des LLM, l’interprétabilité et la transparence sont tout pour moi. L’idée que je puisse exécuter une invite complexe et que les détails clés de la façon dont cette invite a été évaluée me soient cachés me semble être un grand pas en arrière. »

Source-147