Amazon Web Services a lancé une enquête pour déterminer si Perplexity AI enfreint ses règles, selon Filaire. Pour être précis, la division cloud de l’entreprise enquête sur des allégations selon lesquelles le service utilise un robot d’exploration, hébergé sur ses serveurs, qui ignore le protocole d’exclusion des robots. Ce protocole est un standard Web dans lequel les développeurs placent un fichier robots.txt sur un domaine contenant des instructions indiquant si les robots peuvent ou non accéder à une page particulière. Le respect de ces instructions est volontaire, mais les robots d’exploration d’entreprises réputées les respectent généralement depuis que les développeurs Web ont commencé à mettre en œuvre la norme dans les années 90.
Dans un article précédent, Filaire Selon les informations de l’agence, une machine virtuelle contournait les instructions robots.txt de son site Web. Cette machine était hébergée sur un serveur Amazon Web Services utilisant l’adresse IP 44.221.181.252 qui est « certainement exploitée par Perplexity ». Elle aurait également visité d’autres sites de Condé Nast des centaines de fois au cours des trois derniers mois pour récupérer leur contenu. Le Gardien, Forbes et Le New York Times l’avaient également détecté en visitant leurs publications à plusieurs reprises, Câblé dit. Pour confirmer si Perplexity supprimait réellement son contenu, Câblé Les internautes ont saisi des titres ou de courtes descriptions de leurs articles dans le chatbot de l’entreprise. L’outil a ensuite répondu avec des résultats qui paraphrasaient fidèlement ses articles « avec un minimum d’attribution ».
Une récente Reuters Le rapport affirme que Perplexity n’est pas la seule société d’IA à contourner les fichiers robots.txt pour rassembler le contenu utilisé pour former de grands modèles de langage. Cependant, l’enquête d’Amazon semble se concentrer uniquement sur Perplexity AI. Un porte-parole d’Amazon a déclaré Câblé AWS a déclaré que ses clients doivent se conformer aux instructions du fichier robots.txt lors de l’exploration des sites Web. « Les conditions de service d’AWS interdisent aux clients d’utiliser nos services pour toute activité illégale, et nos clients sont responsables du respect de nos conditions et de toutes les lois applicables », ont-ils déclaré.
La porte-parole de Perplexity, Sara Platnick, a déclaré Filaire L’entreprise a déjà répondu aux demandes d’Amazon et a nié que ses robots d’exploration contournent le protocole d’exclusion des robots. « Notre PerplexityBot, qui fonctionne sur AWS, respecte le fichier robots.txt, et nous avons confirmé que les services contrôlés par Perplexity n’explorent pas d’une manière qui viole les conditions d’utilisation d’AWS », a-t-elle déclaré. Platnick nous a dit qu’Amazon avait enquêté sur Filaire enquête sur les médias uniquement dans le cadre d’un protocole standard d’enquête sur les informations faisant état d’abus de ses ressources. La société n’a apparemment jamais entendu parler d’Amazon au sujet d’un quelconque type d’enquête auparavant. Câblé contacté l’entreprise. Platnick a admis FilaireCependant, PerplexityBot ignorera robots.text lorsqu’un utilisateur inclut une URL spécifique dans sa demande de chatbot.
Aravind Srinivas, le PDG de Perplexity, a également nié auparavant que sa société « ignore le protocole d’exclusion des robots et ment ensuite à ce sujet ». Srinivas a admis Compagnie rapide que Perplexity utilise des robots d’exploration Web tiers en plus des siens, et que le bot Filaire identifié était l’un d’entre eux.
Mise à jour, 28 juin 2024, 14 h 20 HE : Nous avons mis à jour cet article pour ajouter la déclaration de Perplexity à Engadget.