Plus tôt cette semaine, La rue Wall Street Journal signalé que les entreprises d’IA se heurtaient à un mur lorsqu’il s’agissait de collecter des données de formation de haute qualité. Aujourd’hui, Le New York Times détaillé certaines des façons dont les entreprises ont géré ce problème. Sans surprise, cela implique de faire des choses qui relèvent de la zone grise floue de la loi sur le droit d’auteur de l’IA.
L’histoire s’ouvre sur OpenAI qui, désespérément à la recherche de données de formation, aurait développé son modèle de transcription audio Whisper pour surmonter l’obstacle, transcrivant plus d’un million d’heures de vidéos YouTube pour entraîner GPT-4, son grand modèle de langage le plus avancé. C’est selon Le New York Times, qui rapporte que l’entreprise savait que cela était juridiquement discutable, mais pensait qu’il s’agissait d’un usage loyal. Le président d’OpenAI, Greg Brockman, a été personnellement impliqué dans la collecte des vidéos utilisées, Fois écrit.
Lindsay Held, porte-parole d’OpenAI, a déclaré Le bord dans un e-mail indiquant que l’entreprise organise des ensembles de données « uniques » pour chacun de ses modèles afin de « les aider à comprendre le monde » et de maintenir sa compétitivité mondiale en matière de recherche. Held a ajouté que la société utilise « de nombreuses sources, notamment des données accessibles au public et des partenariats pour les données non publiques », et qu’elle envisage de générer ses propres données synthétiques.
Le Fois L’article indique que la société a épuisé les réserves de données utiles en 2021 et a discuté de la transcription de vidéos, de podcasts et de livres audio YouTube après avoir parcouru d’autres ressources. À ce moment-là, il avait formé ses modèles sur des données comprenant du code informatique de Github, des bases de données de mouvements d’échecs et du contenu scolaire de Quizlet.
Le porte-parole de Google, Matt Bryant, a déclaré Le bord dans un e-mail, la société a « vu des rapports non confirmés » sur l’activité d’OpenAI, ajoutant que « nos fichiers robots.txt et nos conditions d’utilisation interdisent la récupération ou le téléchargement non autorisé de contenu YouTube », faisant écho au conditions d’utilisation de l’entreprise. Le PDG de YouTube, Neal Mohan, a déclaré des choses similaires à propos de la possibilité qu’OpenAI ait utilisé YouTube pour entraîner son modèle de génération vidéo Sora cette semaine. Bryant a déclaré que Google prend « des mesures techniques et juridiques » pour empêcher une telle utilisation non autorisée « lorsque nous disposons d’une base juridique ou technique claire pour le faire ».
Google a également collecté des transcriptions de YouTube, selon le Fois’ sources. Bryant a déclaré que la société avait formé ses modèles « sur certains contenus YouTube, conformément à nos accords avec les créateurs YouTube ».
Le Fois écrit que le service juridique de Google a demandé à l’équipe de confidentialité de l’entreprise de modifier son langage politique afin d’élargir ce qu’elle pouvait faire avec les données des consommateurs, telles que ses outils bureautiques comme Google Docs. La nouvelle politique aurait été intentionnellement publiée le 1er juillet pour profiter de la distraction du week-end férié du Jour de l’Indépendance.
Meta s’est également heurté aux limites d’une bonne disponibilité des données d’entraînement, et dans les enregistrements, le Fois entendu, son équipe d’IA a discuté de son utilisation non autorisée d’œuvres protégées par le droit d’auteur tout en travaillant pour rattraper OpenAI. La société, après avoir parcouru « des livres, des essais, des poèmes et des articles de presse en anglais presque disponibles sur Internet », a apparemment envisagé de prendre des mesures comme payer des licences de livre ou même acheter purement et simplement un grand éditeur. La manière dont elle pouvait utiliser les données des consommateurs était apparemment également limitée par les changements apportés en matière de confidentialité à la suite du scandale Cambridge Analytica.
Google, OpenAI et le monde plus large de la formation en IA sont aux prises avec des données de formation qui s’évaporent rapidement pour leurs modèles, qui s’améliorent à mesure qu’ils absorbent de données. Le Journal a écrit cette semaine que les entreprises pourraient dépasser le nouveau contenu d’ici 2028.
Solutions possibles à ce problème évoqué par le Journal lundi, incluent des modèles de formation sur des données « synthétiques » créées par leurs propres modèles ou ce qu’on appelle « l’apprentissage du programme », qui consiste à alimenter les modèles en données de haute qualité de manière ordonnée dans l’espoir qu’ils puissent établir des « liens plus intelligents entre les concepts » en utilisant beaucoup moins d’informations, mais aucune des deux approches n’est encore prouvée. Mais l’autre option pour les entreprises est d’utiliser tout ce qu’elles peuvent trouver, qu’elles aient ou non l’autorisation, et sur la base des multiples poursuites intentées au cours de l’année dernière, cette méthode est, disons, plus qu’un peu lourde.