Le New York Times a pris des mesures préventives pour empêcher que son contenu ne soit utilisé pour former des modèles d’intelligence artificielle. Tel que rapporté par Semaine publicitairele NYT mis à jour son Conditions d’utilisation le 3 août pour interdire son contenu – y compris le texte, les photographies, les images, les clips audio / vidéo, le « look and feel », les métadonnées ou les compilations – d’être utilisé dans le développement de « tout programme logiciel, y compris, mais sans s’y limiter, , former un système d’apprentissage automatique ou d’intelligence artificielle (IA).
Les conditions mises à jour précisent désormais également que les outils automatisés tels que les robots d’exploration de sites Web conçus pour utiliser, accéder ou collecter ce contenu ne peuvent pas être utilisés sans l’autorisation écrite de la publication. Le NYT dit que le refus de se conformer à ces nouvelles restrictions pourrait entraîner des amendes ou des pénalités non précisées. Malgré l’introduction des nouvelles règles dans sa politique, la publication ne semble pas avoir apporté de modifications à son robots.txt — le fichier qui informe les robots des moteurs de recherche des URL accessibles.
Google s’est récemment autorisé à former ses services d’IA sur les données publiques qu’il collecte sur le Web.
Cette décision pourrait être une réponse à une récente mise à jour de la politique de confidentialité de Google qui révèle que le géant de la recherche peut collecter des données publiques sur le Web pour former ses différents services d’IA, tels que Bard ou Cloud AI. De nombreux grands modèles de langage alimentant des services d’IA populaires comme ChatGPT d’OpenAI sont formés sur de vastes ensembles de données qui pourraient contenir des éléments protégés par des droits d’auteur ou autrement protégés extraits du Web sans l’autorisation du créateur d’origine.
Cela dit, le NYT a également signé un accord de 100 millions de dollars avec Google retour en février qui permet au géant de la recherche de présenter Fois contenu sur certaines de ses plateformes au cours des trois prochaines années. La publication indique que les deux sociétés travailleront ensemble sur des outils de distribution de contenu, d’abonnements, de marketing, de publicités et d ‘«expérimentation», il est donc possible que les modifications apportées au NYT les conditions d’utilisation s’adressent à d’autres sociétés comme OpenAI ou Microsoft.
OpenAI a récemment annoncé que les opérateurs de sites Web peuvent désormais empêcher son robot d’exploration Web GPTBot de gratter leurs sites Web. Microsoft aussi a ajouté de nouvelles restrictions à ses propres Les conditions générales qui interdisent aux utilisateurs d’utiliser ses produits d’IA pour « créer, former ou améliorer (directement ou indirectement) tout autre service d’IA », ainsi que d’interdire aux utilisateurs de gratter ou d’extraire des données de ses outils d’IA.
Plus tôt ce mois-ci, plusieurs agences de presse, dont The Associated Press et le Conseil européen des éditeurs a signé une lettre ouverte appelant les législateurs mondiaux à instaurer des règles qui exigeraient la transparence des ensembles de données de formation et le consentement des titulaires de droits avant d’utiliser les données pour la formation.