Des sites Web accusent la startup d’IA Anthropic de contourner leurs règles et protocoles anti-scraping

Freelancer a accusé Anthropic, la start-up d’intelligence artificielle à l’origine des grands modèles de langage Claude, d’ignorer son protocole robots.txt « ne pas explorer » pour récupérer les données de ses sites Web. Dans le même temps, le PDG d’iFixit, Kyle Wiens, a déclaré qu’Anthropic avait ignoré la politique du site Web interdisant l’utilisation de son contenu pour la formation des modèles d’IA. Matt Barrie, le directeur général de Freelancer, a déclaré L’information ClaudeBot d’Anthropic est « de loin le scraper le plus agressif ». Son site Web aurait reçu 3,5 millions de visites du crawler de l’entreprise en l’espace de quatre heures, ce qui représente « probablement environ cinq fois le volume du crawler numéro deux » d’IA. De même, Wiens a posté sur X/Twitter que le bot d’Anthropic a atteint les serveurs d’iFixit un million de fois en 24 heures. « Vous ne vous contentez pas de prendre notre contenu sans payer, vous monopolisez nos ressources devops », a-t-il écrit.

En juin dernier, Wired accusé une autre société d’IA, Perplexity, a réussi à explorer son site Web malgré la présence du protocole d’exclusion des robots, ou robots.txt. Un fichier robots.txt contient généralement des instructions pour les robots d’exploration Web sur les pages auxquelles ils peuvent ou non accéder. Bien que le respect de cette règle soit volontaire, il est généralement ignoré par les robots malveillants. Filaire Une start-up appelée TollBit, qui met en relation des entreprises d’IA avec des éditeurs de contenu, a indiqué que Perplexity n’était pas la seule à contourner les signaux robots.txt. Bien qu’elle n’ait pas cité de noms, Interne du milieu des affaires a déclaré avoir appris qu’OpenAI et Anthropic ignoraient également le protocole.

Barrie a déclaré que Freelancer avait d’abord essayé de refuser les demandes d’accès du robot, mais qu’il avait finalement dû bloquer entièrement le robot d’Anthropic. « Il s’agit d’un scraping flagrant. [which] « Cela ralentit le site pour tous ceux qui y travaillent et affecte en fin de compte nos revenus », a-t-il ajouté. Quant à iFixit, Wiens a déclaré que le site Web avait défini des alarmes en cas de trafic élevé et que ses employés avaient été réveillés à 3 heures du matin en raison des activités d’Anthropic. Le crawler de l’entreprise a arrêté de scraper iFixit après avoir ajouté une ligne dans son fichier robots.txt qui interdit le bot d’Anthropic, en particulier.

La startup d’IA a déclaré L’information qu’il respecte le fichier robots.txt et que son robot d’exploration « a respecté ce signal lorsque iFixit l’a mis en œuvre ». Il a également déclaré qu’il visait « à minimiser les perturbations en réfléchissant à la rapidité avec laquelle [it crawls] les mêmes domaines », c’est pourquoi l’affaire est désormais en cours d’enquête.

Les entreprises d’IA utilisent des robots d’exploration pour collecter du contenu sur des sites Web qu’elles peuvent utiliser pour entraîner leurs technologies d’IA générative. Elles ont été la cible de multiples poursuites judiciaires en conséquence, les éditeurs les accusant de violation du droit d’auteur. Pour éviter que davantage de poursuites ne soient intentées, des entreprises comme OpenAI ont conclu des accords avec des éditeurs et des sites Web. Les partenaires de contenu d’OpenAI, jusqu’à présent, incluent News Corp, Vox Media, Le Financial Times et Reddit. Wiens d’iFixit semble également ouvert à l’idée de signer un accord pour les articles du site Web de réparation, déclarant à Anthropic dans un tweet qu’il était prêt à avoir une conversation sur l’octroi de licences de contenu pour une utilisation commerciale.

Source-145