OpenAI et Google auraient utilisé des transcriptions de vidéos YouTube pour entraîner leurs modèles d’IA

OpenAI et Google ont formé leurs modèles d’IA sur des textes transcrits à partir de vidéos YouTube, violant potentiellement les droits d’auteur des créateurs, selon Le New York Times. Le rapport, qui décrit les efforts déployés par OpenAI, Google et Meta pour maximiser la quantité de données qu’ils peuvent fournir à leurs IA, cite de nombreuses personnes connaissant les pratiques des entreprises. Cela survient quelques jours seulement après que le PDG de YouTube, Neal Mohan, a déclaré dans une interview avec Originaux Bloomberg que l’utilisation présumée par OpenAI de vidéos YouTube pour former son nouveau générateur de texte en vidéo, Sora, irait à l’encontre des politiques de la plateforme.

Selon le New York TimesOpenAI a utilisé son outil de reconnaissance vocale Whisper pour transcrire plus d’un million d’heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner GPT-4. L’information précédemment signalé qu’OpenAI avait utilisé des vidéos et des podcasts YouTube pour former les deux systèmes d’IA. Le président d’OpenAI, Greg Brockman, aurait fait partie de cette équipe. Selon les règles de Google, « le grattage ou le téléchargement non autorisé de contenu YouTube » n’est pas autorisé, a déclaré Matt Bryant, porte-parole de Google. New York Timesaffirmant également que la société n’était pas au courant d’une telle utilisation par OpenAI.

Le rapport affirme cependant que certaines personnes chez Google étaient au courant mais n’ont pas pris de mesures contre OpenAI parce que Google utilisait des vidéos YouTube pour former ses propres modèles d’IA. Google a dit New York Times il ne le fait qu’avec les vidéos de créateurs qui ont accepté cela. Engadget a contacté Google et OpenAI pour commentaires.

Le New York Times Le rapport affirme également que Google a demandé à une équipe de modifier sa politique de confidentialité en juin 2023 afin de couvrir plus largement son utilisation du contenu accessible au public, notamment Google Docs et Google Sheets, pour former ses modèles et produits d’IA. Les modifications, qui, selon Google, ont été apportées par souci de clarté, ont été publiées en juillet. Bryant a dit New York Times que ce type de données n’est utilisé qu’avec l’autorisation des utilisateurs qui choisissent de participer aux tests de fonctionnalités expérimentales de Google, et que l’entreprise « n’a pas commencé à former sur des types de données supplémentaires en fonction de ce changement de langue ». Le changement a ajouté Bard comme exemple de l’utilisation possible de ces données.

Correction, 6 avril 2024, 15 h 45 HE : Cette histoire indiquait à l’origine que Google avait mis à jour sa politique de confidentialité en juin 2022. La mise à jour de la politique a en fait été effectuée en 2023. Nous nous excusons pour l’erreur.

Source-145