Les tentatives d’OpenAI pour filigraner le texte AI atteignent les limites

Est-ce qu’un humain écrire ça, ou ChatGPT ? Cela peut être difficile à dire – peut-être trop difficile, pense son créateur OpenAI, c’est pourquoi il travaille sur un moyen de « filigraner » le contenu généré par l’IA.

Lors d’une conférence à l’Université d’Austin, le professeur d’informatique Scott Aaronson, actuellement chercheur invité à OpenAI, a révélé qu’OpenAI développe un outil pour « taper statistiquement les sorties d’un texte ». [AI system].” Chaque fois qu’un système – par exemple, ChatGPT – génère du texte, l’outil intègre un « signal secret imperceptible » indiquant d’où provient le texte.

L’ingénieur OpenAI Hendrik Kirchner a construit un prototype fonctionnel, dit Aaronson, et l’espoir est de l’intégrer dans les futurs systèmes développés par OpenAI.

« Nous voulons que ce soit beaucoup plus difficile à prendre [an AI system’s] sortie et faites-la passer comme si elle provenait d’un humain », a déclaré Aaronson dans ses remarques. « Cela pourrait être utile pour prévenir le plagiat universitaire, évidemment, mais aussi, par exemple, la génération massive de propagande – vous savez, spammer chaque blog avec des commentaires apparemment sur le sujet soutenant l’invasion de l’Ukraine par la Russie sans même un bâtiment plein de trolls à Moscou. Ou se faire passer pour le style d’écriture de quelqu’un afin de l’incriminer.

Exploiter le hasard

Pourquoi le besoin d’un filigrane? ChatGPT en est un bon exemple. Le chatbot développé par OpenAI a pris d’assaut Internet, montrant une aptitude non seulement à répondre à des questions difficiles, mais aussi à écrire de la poésie, à résoudre des énigmes de programmation et à devenir poétique sur un certain nombre de sujets philosophiques.

Bien que ChatGPT soit très amusant – et véritablement utile – le système soulève des préoccupations éthiques évidentes. Comme de nombreux systèmes de génération de texte avant lui, ChatGPT pourrait être utilisé pour écrire des e-mails de phishing de haute qualité et des logiciels malveillants nuisibles, ou tricher lors de devoirs scolaires. Et en tant qu’outil de questions-réponses, il est factuellement incohérent – une lacune qui a conduit le site de programmation de questions-réponses Stack Overflow à interdire les réponses provenant de ChatGPT jusqu’à nouvel ordre.

Pour saisir les fondements techniques de l’outil de filigrane d’OpenAI, il est utile de savoir pourquoi des systèmes comme ChatGPT fonctionnent aussi bien qu’eux. Ces systèmes comprennent le texte d’entrée et de sortie comme des chaînes de « jetons », qui peuvent être des mots mais aussi des signes de ponctuation et des parties de mots. À la base, les systèmes génèrent constamment une fonction mathématique appelée distribution de probabilité pour décider du prochain jeton (par exemple, un mot) à produire, en tenant compte de tous les jetons précédemment produits.

Dans le cas de systèmes hébergés par OpenAI comme ChatGPT, une fois la distribution générée, le serveur d’OpenAI effectue le travail d’échantillonnage des jetons en fonction de la distribution. Il y a un peu de hasard dans cette sélection ; c’est pourquoi la même invite de texte peut donner une réponse différente.

L’outil de filigrane d’OpenAI agit comme un « wrapper » sur les systèmes de génération de texte existants, a déclaré Aaronson lors de la conférence, tirant parti d’une fonction cryptographique fonctionnant au niveau du serveur pour sélectionner « pseudo-aléatoirement » le jeton suivant. En théorie, le texte généré par le système semblerait toujours aléatoire pour vous ou moi, mais toute personne possédant la « clé » de la fonction cryptographique serait en mesure de découvrir un filigrane.

« Empiriquement, quelques centaines de jetons semblent suffire pour obtenir un signal raisonnable que oui, ce texte vient de [an AI system]. En principe, vous pouvez même prendre un long texte et isoler de quelles parties proviennent probablement [the system] et quelles parties ne l’ont probablement pas fait. a déclaré Aaronson. « [The tool] peut faire le filigrane en utilisant une clé secrète et il peut vérifier le filigrane en utilisant la même clé.

Principales limites

Le filigrane du texte généré par l’IA n’est pas une idée nouvelle. Les tentatives précédentes, la plupart basées sur des règles, reposaient sur des techniques telles que les substitutions de synonymes et les changements de mots spécifiques à la syntaxe. Mais en dehors des recherches théoriques publiées par l’institut allemand CISPA en mars dernier, OpenAI semble être l’une des premières approches cryptographiques du problème.

Lorsqu’il a été contacté pour commenter, Aaronson a refusé d’en dire plus sur le prototype de filigrane, sauf qu’il s’attend à co-écrire un document de recherche dans les mois à venir. OpenAI a également refusé, affirmant seulement que le filigrane fait partie de plusieurs «techniques de provenance» qu’il explore pour détecter les sorties générées par l’IA.

Cependant, des universitaires et des experts de l’industrie non affiliés ont partagé des opinions mitigées. Ils notent que l’outil est côté serveur, ce qui signifie qu’il ne fonctionnerait pas nécessairement avec tous les systèmes de génération de texte. Et ils soutiennent qu’il serait trivial pour les adversaires de contourner.

« Je pense qu’il serait assez facile de le contourner en reformulant, en utilisant des synonymes, etc. », a déclaré Srini Devadas, professeur d’informatique au MIT, à TechCrunch par e-mail. « C’est un peu un bras de fer. »

Jack Hessel, chercheur à l’Allen Institute for AI, a souligné qu’il serait difficile d’identifier imperceptiblement le texte généré par l’IA, car chaque jeton est un choix discret. Une empreinte digitale trop évidente pourrait entraîner le choix de mots étranges qui dégradent la fluidité, tandis qu’une empreinte trop subtile laisserait place au doute lorsque l’empreinte digitale est recherchée.

ChatGPT répondant à une question.

Yoav Shoham, co-fondateur et co-PDG d’AI21 Labs, un rival d’OpenAI, ne pense pas que le tatouage statistique suffira à aider à identifier la source du texte généré par l’IA. Il appelle à une approche « plus complète » qui inclut le filigrane différentiel, dans lequel différentes parties du texte sont filigranées différemment, et des systèmes d’IA qui citent plus précisément les sources du texte factuel.

Cette technique de filigrane spécifique nécessite également d’accorder beaucoup de confiance – et de puissance – à OpenAI, ont noté les experts.

« Une empreinte digitale idéale ne serait pas discernable par un lecteur humain et permettrait une détection très fiable », a déclaré Hessel par e-mail. « Selon la façon dont il est configuré, il se peut qu’OpenAI eux-mêmes soit la seule partie capable de fournir cette détection en toute confiance en raison du fonctionnement du processus de » signature « . »

Dans sa conférence, Aaronson a reconnu que le programme ne fonctionnerait vraiment que dans un monde où des entreprises comme OpenAI sont en avance dans la mise à l’échelle de systèmes de pointe – et elles acceptent toutes d’être des acteurs responsables. Même si OpenAI devait partager l’outil de filigrane avec d’autres fournisseurs de systèmes de génération de texte, comme Cohere et AI21Labs, cela n’empêcherait pas les autres de choisir de ne pas l’utiliser.

« Si [it] devient un jeu pour tous, alors de nombreuses mesures de sécurité deviennent plus difficiles, et pourraient même être impossibles, du moins sans réglementation gouvernementale », a déclaré Aaronson. « Dans un monde où n’importe qui pouvait créer son propre modèle de texte qui était aussi bon que [ChatGPT, for example] … que feriez-vous là-bas ?

C’est comme ça que ça se passe dans le domaine du texte à l’image. Contrairement à OpenAI, dont le système de génération d’images DALL-E 2 n’est disponible que via une API, Stability AI a ouvert sa technologie texte-image (appelée Stable Diffusion). Alors que DALL-E 2 dispose d’un certain nombre de filtres au niveau de l’API pour empêcher la génération d’images problématiques (ainsi que des filigranes sur les images qu’il génère), l’open source Stable Diffusion ne le fait pas. De mauvais acteurs l’ont utilisé pour créer du porno deepfake, entre autres toxicités.

Pour sa part, Aaronson est optimiste. Dans la conférence, il a exprimé la conviction que, si OpenAI peut démontrer que le filigrane fonctionne et n’a pas d’impact sur la qualité du texte généré, il a le potentiel de devenir un standard de l’industrie.

Tout le monde n’est pas d’accord. Comme le souligne Devadas, l’outil a besoin d’une clé, ce qui signifie qu’il ne peut pas être complètement open source, limitant potentiellement son adoption aux organisations qui acceptent de s’associer à OpenAI. (Si la clé devait être rendue publique, n’importe qui pourrait en déduire le motif derrière les filigranes, ce qui irait à l’encontre de leur objectif.)

Mais ce n’est peut-être pas si farfelu. Un représentant de Quora a déclaré que l’entreprise serait intéressée par l’utilisation d’un tel système, et qu’elle ne serait probablement pas la seule.

« Vous pourriez vous inquiéter que tout ce qui consiste à essayer d’être sûr et responsable lors de la mise à l’échelle de l’IA… dès que cela nuira sérieusement aux résultats de Google, de Meta, d’Alibaba et des autres acteurs majeurs, une grande partie disparaîtra, », a déclaré Aaronson. « D’autre part, nous avons vu au cours des 30 dernières années que les grandes entreprises de l’Internet peuvent s’entendre sur certaines normes minimales, que ce soit par peur d’être poursuivies en justice, par désir d’être perçu comme un acteur responsable ou autre chose. »

Source-146