OpenAI admet qu’il est impossible de former une IA générative sans matériel protégé par le droit d’auteur

OpenAI et son plus grand bailleur de fonds, Microsoft, font face à plusieurs poursuites judiciaires les accusant d’utiliser les œuvres protégées par le droit d’auteur d’autres personnes sans autorisation pour former les grands modèles de langage (LLM) du premier. Et d’après ce qu’OpenAI a déclaré à la Commission des communications et du numérique de la Chambre des Lords, nous pourrions assister à davantage de poursuites judiciaires contre les entreprises à l’avenir. Il serait « impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser des matériaux protégés par le droit d’auteur », a écrit OpenAI dans sa preuve écrite (PDF) pour l’enquête du comité sur les LLM, comme l’a rapporté pour la première fois le Le gardien.

La société a expliqué que c’est parce que le droit d’auteur « couvre aujourd’hui pratiquement toutes sortes d’expressions humaines, y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux ». Il a ajouté que « [l]imiter les données de formation avec des livres et des dessins du domaine public créés il y a plus d’un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui.  » OpenAI a également insisté sur le fait qu’elle se conforme aux lois sur le droit d’auteur lorsqu’elle entraîne ses modèles. Dans un nouveau post sur son blog réalisé en réponse à la Le procès du New York Timesil a déclaré que l’utilisation de matériel Internet accessible au public pour former l’IA relève de la doctrine de l’utilisation équitable.

Il a toutefois admis qu’il y avait « encore du travail à faire pour soutenir et responsabiliser les créateurs ». La société a expliqué comment elle permet aux éditeurs d’empêcher le robot d’exploration Web GPTBot d’accéder à leurs sites Web. Elle a également déclaré qu’elle développait des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu’elle s’engageait avec eux pour trouver des accords mutuellement avantageux.

Dans certaines des poursuites intentées contre OpenAI et Microsoft, les plaignants accusent les entreprises de refuser de payer les auteurs pour leur travail tout en construisant une industrie d’un milliard de dollars et en tirant d’énormes gains financiers grâce aux documents protégés par le droit d’auteur. La plainte la plus récente déposée par quelques auteurs de non-fiction affirmait que les sociétés auraient pu explorer des options de financement alternatives, telles que le partage des bénéfices, mais qu’elles avaient plutôt « décidé de voler ».

OpenAI n’a pas répondu à ces poursuites particulières, mais il a fourni une réponse directe à Le New York Times’ plainte qui l’accuse d’utiliser ses articles de presse publiés sans autorisation. La publication ne raconte pas toute l’histoire, a-t-elle déclaré. Il était déjà en négociation avec Les temps concernant un « partenariat de grande valeur » qui lui donnerait accès aux reportages de la publication. Les deux parties étaient apparemment toujours en contact jusqu’au 19 décembre, et OpenAI n’a eu connaissance du procès qu’en décembre en lisant des articles sur ce sujet sur Les temps.

Dans la plainte déposée par le journal, il cite des cas où ChatGPT fournit aux utilisateurs des « extraits quasi textuels » d’articles payants. OpenAI a accusé la publication d’avoir intentionnellement manipulé les invites, par exemple en incluant de longs extraits d’articles dans son interaction avec le chatbot pour l’amener à régurgiter du contenu. C’est aussi accuser Les temps de sélection d’exemples issus de nombreuses tentatives. OpenAI a déclaré que le procès intenté par Les temps n’a aucun mérite, mais on espère toujours un « partenariat constructif » avec la publication.

Source-145