Les sociétés d’IA continueraient de supprimer des sites Web malgré les protocoles destinés à les bloquer

Perplexity, une entreprise qui décrit son produit comme « un moteur de recherche gratuit avec IA », a été critiquée ces derniers jours. Peu après Forbes l’a accusé d’avoir volé son histoire et de l’avoir republiée sur plusieurs plateformes, Filaire a rapporté que Perplexity ignorait le protocole d’exclusion des robots, ou robots.txt, et avait supprimé son site Web et d’autres publications de Condé Nast. Site Web technologique Le raccourci a également accusé l’entreprise d’avoir gratté ses articles. Maintenant, Reuters a rapporté que Perplexity n’est pas la seule société d’IA à contourner les fichiers robots.txt et à récupérer des sites Web pour obtenir du contenu qui est ensuite utilisé pour former leurs technologies.

Reuters a déclaré avoir vu une lettre adressée aux éditeurs de TollBit, une startup qui les associe à des sociétés d’IA afin qu’ils puissent conclure des accords de licence, les avertissant que « les agents d’IA provenant de plusieurs sources (pas d’une seule entreprise) choisissent de contourner le fichier robots.txt » protocole pour récupérer le contenu des sites. Le fichier robots.txt contient des instructions destinées aux robots d’exploration Web sur les pages auxquelles ils peuvent et ne peuvent pas accéder. Les développeurs Web utilisent le protocole depuis 1994, mais sa conformité est entièrement volontaire.

La lettre de TollBit ne nommait aucune entreprise, mais Interne du milieu des affaires dit avoir appris qu’OpenAI et Anthropic – les créateurs respectivement des chatbots ChatGPT et Claude – contournent également les signaux robots.txt. Les deux sociétés ont précédemment proclamé qu’elles respectaient les instructions « ne pas explorer » que les sites Web inscrivaient dans leurs fichiers robots.txt.

Au cours de son enquête, Filaire a découvert qu’une machine sur un serveur Amazon « certainement exploité par Perplexity » contournait les instructions robots.txt de son site Web. Pour confirmer si Perplexity récupérait son contenu, Filaire a fourni à l’outil de l’entreprise des titres de ses articles ou de courtes invites décrivant ses histoires. L’outil aurait abouti à des résultats qui paraphrasaient fidèlement ses articles « avec une attribution minimale ». Et parfois, il générait même des résumés inexacts pour ses articles – Filaire dit que le chatbot a faussement affirmé avoir signalé qu’un policier californien spécifique avait commis un crime dans un cas.

Dans une interview avec Entreprise rapide, le PDG de Perplexity, Aravind Srinivas, a déclaré à la publication que son entreprise « n’ignore pas le protocole d’exclusion des robots pour ensuite mentir à ce sujet ». Cela ne signifie pas pour autant qu’il ne bénéficie pas des robots d’exploration qui ignorent le protocole. Srinivas a expliqué que la société utilise des robots d’exploration Web tiers en plus des siens, et que le robot d’exploration Filaire identifié était l’un d’entre eux. Quand Entreprise rapide Lorsqu’on lui a demandé si Perplexity avait demandé au fournisseur de robots d’arrêter de supprimer le site Web de Wired, il a seulement répondu que « c’est compliqué ».

Srinivas a défendu les pratiques de son entreprise, déclarant à la publication que le protocole d’exclusion des robots n’est « pas un cadre juridique » et suggérant que les éditeurs et les entreprises comme la sienne pourraient devoir établir un nouveau type de relation. Il aurait également insinué que Filaire a délibérément utilisé des invites pour que le chatbot de Perplexity se comporte comme il l’a fait, afin que les utilisateurs ordinaires n’obtiennent pas les mêmes résultats. Quant aux résumés inexacts générés par l’outil, Srinivas a déclaré : « Nous n’avons jamais dit que nous n’avions jamais halluciné ».

Source-145