Un nouveau groupe de normalisation de l’IA veut rendre le scraping de données optionnel

Aurich / Getty

La première vague d’outils d’IA générative majeurs s’appuyait en grande partie sur des données « accessibles au public », c’est-à-dire tout ce qui pouvait être récupéré sur Internet. Aujourd’hui, les sources de données d’apprentissage restreignent de plus en plus l’accès et font pression pour obtenir des accords de licence. La chasse aux sources de données supplémentaires s’intensifiant, de nouvelles startups spécialisées dans les licences ont vu le jour pour assurer la circulation des sources.

La Dataset Providers Alliance, un groupe commercial formé cet été, souhaite rendre le secteur de l’IA plus standardisé et plus équitable. À cette fin, elle vient de publier un document de position exposant ses positions sur les principales questions liées à l’IA. L’alliance est composée de sept sociétés de licences d’IA, dont la société de gestion des droits d’auteur musicaux Rightsify, la place de marché japonaise de photos Pixta et la start-up de licences de droits d’auteur d’IA générative Calliope Networks. (Au moins cinq nouveaux membres seront annoncés à l’automne.)

La DPA préconise un système d’opt-in, ce qui signifie que les données ne peuvent être utilisées qu’après que les créateurs et les titulaires de droits ont donné leur consentement explicite. Cela représente un écart important par rapport au mode de fonctionnement de la plupart des grandes entreprises d’IA. Certaines ont développé leurs propres systèmes d’opt-out, qui imposent aux propriétaires de données la charge de retirer leur travail au cas par cas. D’autres n’offrent aucune option d’opt-out.

La DPA, qui attend de ses membres qu’ils adhèrent à sa règle d’adhésion, considère cette voie comme la plus éthique. « Les artistes et les créateurs devraient être à bord », déclare Alex Bestall, PDG de Rightsify et de la société de licence de données musicales Global Copyright Exchange, qui a été le fer de lance de l’initiative. Bestall considère l’adhésion comme une approche pragmatique et morale : « Vendre des ensembles de données accessibles au public est une façon d’être poursuivi en justice et de ne pas avoir de crédibilité. »

Ed Newton-Rex, ancien responsable de l’intelligence artificielle qui dirige aujourd’hui l’association Fairly Trained, qualifie les options de retrait de « fondamentalement injustes pour les créateurs », ajoutant que certains ne savent peut-être même pas quand elles sont proposées. « Il est particulièrement positif de voir la DPA exiger des options de retrait », dit-il.

Shayne Longpre, responsable de la Data Provenance Initiative, un collectif de bénévoles qui vérifie les ensembles de données d’IA, considère comme admirables les efforts de la DPA pour obtenir des données de manière éthique, même s’il craint que la norme d’adhésion soit difficile à vendre, en raison du volume considérable de données que la plupart des modèles d’IA modernes nécessitent. « Dans ce régime, soit vous allez manquer de données, soit vous allez devoir payer cher », dit-il. « Il se pourrait que seuls quelques acteurs, de grandes entreprises technologiques, puissent se permettre d’acquérir toutes ces données sous licence. »

Dans son rapport, la DPA s’oppose à l’attribution de licences par les gouvernements et plaide plutôt pour une approche de « marché libre » dans laquelle les créateurs de données et les entreprises d’IA négocient directement. D’autres lignes directrices sont plus détaillées. Par exemple, l’alliance suggère cinq structures de rémunération potentielles pour s’assurer que les créateurs et les titulaires de droits sont rémunérés de manière appropriée pour leurs données. Il s’agit notamment d’un modèle basé sur l’abonnement, d’une « licence basée sur l’utilisation » (dans laquelle les frais sont payés par utilisation) et d’une « licence basée sur les résultats », dans laquelle les redevances sont liées aux bénéfices. « Ces modèles pourraient fonctionner pour tout, de la musique aux images en passant par le cinéma, la télévision ou les livres », explique Bestall.

« La normalisation des structures de rémunération est potentiellement une bonne chose », affirme Bill Rosenblatt, un technologue qui étudie le droit d’auteur. « La Dataset Providers Alliance est très bien placée pour proposer des conditions. » Selon Rosenblatt, les entreprises d’IA ont besoin d’incitations pour adopter le système de licences. Si les raisons juridiques (la crainte des poursuites judiciaires, la réglementation imposant des licences) sont les plus évidentes, Rosenblatt affirme qu’il est également important pour les donneurs de licences potentiels de rendre le processus aussi simple et pratique que possible. La normalisation des modèles de paiement, soutient-il, contribue à faciliter l’adoption généralisée.

La DPA soutient également certaines utilisations des données synthétiques (celles générées par l’IA), en faisant valoir qu’elles « constitueront la majorité » des données d’entraînement dans un avenir proche. « Certains détenteurs de droits d’auteur n’apprécieront probablement pas cela », déclare Bestall. « Mais c’est inévitable. » L’alliance plaide pour une « licence appropriée » des informations de pré-entraînement utilisées pour créer des données synthétiques et pour la transparence sur la manière dont ces dernières sont créées. Elle appelle également à une « évaluation » régulière des modèles de données synthétiques pour « atténuer les biais et les problèmes éthiques ».

Bien entendu, la DPA doit rallier les acteurs les plus influents du secteur, ce qui est plus facile à dire qu’à faire. « Des normes émergent sur la manière de délivrer des licences de données de manière éthique », explique Newton-Rex. « Mais les entreprises d’IA ne sont pas assez nombreuses à les adopter. »

Pourtant, l’existence même de la DPA montre que l’ère du Far West en matière d’IA touche à sa fin. « Tout change si vite », déclare Bestall.

Cet article a été initialement publié sur wired.com.

Source-147