Les sites se bousculent pour bloquer le robot d’exploration ChatGPT après l’apparition d’instructions

Sans annonce, OpenAI a récemment ajouté des détails sur son robot d’indexation, GPTBot, à son site de documentation en ligne. GPTBot est le nom de l’agent utilisateur que l’entreprise utilise pour récupérer des pages Web afin de former les modèles d’IA derrière ChatGPT, tels que GPT-4. En début de semaine, certains sites ont rapidement annoncé leur intention de bloquer l’accès de GPTBot à leur contenu.

Dans la nouvelle documentation, OpenAI indique que les pages Web explorées avec GPTBot « peuvent potentiellement être utilisées pour améliorer les futurs modèles » et que permettre à GPTBot d’accéder à votre site « peut aider les modèles d’IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité ».

OpenAI affirme avoir mis en place des filtres garantissant que les sources derrière les paywalls, celles qui collectent des informations personnellement identifiables ou tout contenu violant les politiques d’OpenAI ne seront pas accessibles par GPTBot.

La nouvelle de la possibilité de bloquer les grattages de formation d’OpenAI (s’ils les honorent) arrive trop tard pour affecter les données de formation actuelles de ChatGPT ou GPT-4, qui ont été grattées sans annonce il y a des années. OpenAI a collecté les données jusqu’en septembre 2021, qui est le seuil actuel de « connaissances » pour les modèles de langage d’OpenAI.

Il convient de noter que les nouvelles instructions Peut-être pas empêcher les versions de navigation Web des plug-ins ChatGPT ou ChatGPT d’accéder aux sites Web actuels pour transmettre des informations à jour à l’utilisateur. Ce point n’était pas précisé dans la documentation et nous avons contacté OpenAI pour obtenir des éclaircissements.

La réponse se trouve dans robots.txt

Selon la documentation d’OpenAI, GPTBot sera identifiable par le jeton d’agent utilisateur « GPTBot », sa chaîne complète étant « Mozilla/5.0 AppleWebKit/537.36 (KHTML, comme Gecko ; compatible ; GPTBot/1.0 ; +https://openai.com /gptbot) ».

Les documents OpenAI donnent également des instructions sur la façon d’empêcher GPTBot d’explorer des sites Web à l’aide du fichier standard robots.txt, qui est un fichier texte qui se trouve dans le répertoire racine d’un site Web et indique aux robots d’exploration Web (tels que ceux utilisés par les moteurs de recherche ) de ne pas indexer le site.

C’est aussi simple que d’ajouter ces deux lignes au fichier robots.txt d’un site :

User-agent: GPTBot
Disallow: /

OpenAI indique également que les administrateurs peuvent restreindre GPTBot à certaines parties du site dans robots.txt avec différents jetons :

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

De plus, OpenAI a fourni les blocs d’adresses IP spécifiques à partir desquels le GPTBot fonctionnera, qui pourraient également être bloqués par des pare-feu.

Malgré cette option, le blocage de GPTBot ne garantira pas que les données d’un site ne finissent pas par former tous les modèles d’IA du futur. Outre les problèmes de scrapers ignorant les fichiers robots.txt, il existe d’autres grands ensembles de données de sites Web scrapés (tels que The Pile) qui ne sont pas affiliés à OpenAI. Ces ensembles de données sont couramment utilisés pour former des LLM open source (ou disponibles en source) tels que Meta’s Llama 2.

Certains sites réagissent avec précipitation

Bien que très réussi d’un point de vue technologique, ChatGPT a également été controversé par la façon dont il a supprimé des données protégées par le droit d’auteur sans autorisation et a concentré cette valeur dans un produit commercial qui contourne le modèle de publication en ligne typique. OpenAI a été accusé (et poursuivi) de plagiat dans ce sens.

En conséquence, il n’est pas surprenant de voir certaines personnes réagir à la nouvelle de la possibilité de bloquer potentiellement leur contenu des futurs modèles GPT avec une sorte de goût refoulé. Par exemple, mardi, VentureBeat a noté que The Verge, l’écrivain Substack Casey Newton et Neil Clark de Clarkesworld, ont tous déclaré qu’ils bloqueraient GPTBot peu de temps après l’annonce du bot.

Mais pour les grands opérateurs de sites Web, le choix de bloquer les robots d’exploration de grands modèles de langage (LLM) n’est pas aussi simple qu’il y paraît. Rendre certains LLM aveugles à certaines données de sites Web laissera des lacunes dans les connaissances qui pourraient très bien servir certains sites (tels que des sites qui ne veulent pas perdre de visiteurs si ChatGPT leur fournit leurs informations), mais cela peut également nuire à d’autres. Par exemple, bloquer le contenu des futurs modèles d’IA pourrait réduire l’empreinte culturelle d’un site ou d’une marque si les chatbots d’IA devenaient une interface utilisateur principale à l’avenir. En tant qu’expérience de pensée, imaginez une entreprise en ligne déclarant qu’elle ne voulait pas que son site Web soit indexé par Google en 2002 – une décision contre-productive alors que c’était la rampe d’accès la plus populaire pour trouver des informations en ligne.

Il est encore tôt dans le jeu de l’IA générative, et quelle que soit l’évolution de la technologie – ou les sites individuels qui tentent de se retirer de la formation au modèle d’IA – au moins OpenAI offre l’option.

Source-147