La startup Runway, spécialisée dans les vidéos IA, aurait été formée sur des « milliers » de vidéos YouTube sans autorisation

Selon certaines informations, la société d’intelligence artificielle Runway aurait récupéré des « milliers » de vidéos YouTube et des versions piratées de films protégés par le droit d’auteur sans autorisation. 404 Médias a obtenu des feuilles de calcul internes présumées suggérant que la startup de génération de vidéos IA a formé son modèle Gen-3 en utilisant du contenu YouTube provenant de chaînes comme Disney, Netflix, Pixar et des médias populaires.

Un ancien employé présumé de Runway a déclaré à la publication que l’entreprise utilisait la feuille de calcul pour signaler des listes de vidéos qu’elle souhaitait intégrer à sa base de données. Elle les téléchargeait ensuite sans se faire repérer à l’aide d’un logiciel proxy open source pour brouiller les pistes. Une feuille énumère des mots-clés simples comme astronaute, fée et arc-en-ciel, avec des notes de bas de page indiquant si l’entreprise avait trouvé des vidéos de haute qualité correspondantes pour s’entraîner. Par exemple, le terme « super-héros » comprend une note indiquant « Beaucoup d’extraits de films ». (En effet.)

D’autres notes montrent que les chaînes YouTube signalées par Runway pour Unreal Engine, le cinéaste Josh Neuman et une page de fan de Call of Duty sont de bonnes sources de vidéos d’entraînement aux « mouvements élevés ».

« Les chaînes de cette feuille de calcul étaient le fruit d’un effort à l’échelle de l’entreprise pour trouver des vidéos de bonne qualité avec lesquelles construire le modèle », a déclaré l’ancien employé. 404 Médias« Ces données ont ensuite été utilisées comme données d’entrée par un robot d’exploration Web massif qui a téléchargé toutes les vidéos de toutes ces chaînes, en utilisant des proxys pour éviter d’être bloqué par Google. »

Capture d'écran du pavé d'accueil Runway AI.

Piste

Une liste de près de 4 000 chaînes YouTube, compilée dans l’une des feuilles de calcul, a signalé les « chaînes recommandées » de CBS New York, AMC Theaters, Pixar, Disney Plus, Disney CD et le Monterey Bay Aquarium. (Parce qu’aucun modèle d’IA n’est complet sans les loutres.)

Runway aurait également compilé une liste distincte de vidéos provenant de sites de piratage. Une feuille de calcul intitulée « Source non YouTube » comprend 14 liens vers des sources telles qu’une archive en ligne non autorisée de films du Studio Ghibli, des sites de piratage d’anime et de films, un site de fans affichant des vidéos de jeux Xbox et le site de streaming animé kisscartoon.sh.

Dans ce qui pourrait être considéré comme une confirmation accablante que l’entreprise a utilisé les données de formation, 404 Médias Les chercheurs ont découvert que le fait de demander au générateur de vidéos les noms des YouTubeurs populaires répertoriés dans la feuille de calcul produisait des résultats présentant une ressemblance troublante. Fait crucial, la saisie des mêmes noms dans l’ancien modèle Gen-2 de Runway – formé avant les données présumées dans les feuilles de calcul – générait des résultats « sans rapport », comme des hommes génériques en costume. De plus, après que la publication a contacté Runway pour lui demander si les ressemblances des YouTubeurs apparaissaient dans les résultats, l’outil d’IA a complètement cessé de les générer.

« J’espère qu’en partageant ces informations, les gens auront une meilleure compréhension de l’ampleur de ces entreprises et de ce qu’elles font pour créer des vidéos « cool » », a déclaré l’ancien employé. 404 Médias.

Contacté pour un commentaire, un représentant de YouTube a indiqué à Engadget une interview accordée par son PDG Neal Mohan à Bloomberg En avril, Mohan a décrit la formation sur ses vidéos comme une « violation flagrante » de ses conditions. « Nos commentaires précédents à ce sujet sont toujours valables », a écrit Jack Mason, porte-parole de YouTube, à Engadget.

Runway n’a pas répondu à une demande de commentaires au moment de la publication.

Certaines entreprises d’IA semblent au moins se lancer dans une course pour normaliser leurs outils et établir leur leadership sur le marché avant que les utilisateurs – et les tribunaux – ne découvrent comment leur produit a été fabriqué. Former avec autorisation par le biais d’accords de licence est une chose, et c’est une autre tactique que des entreprises comme OpenAI ont récemment adoptée. Mais il est beaucoup plus douteux (voire illégal) de traiter l’ensemble d’Internet – y compris le matériel protégé par le droit d’auteur – comme un enjeu dans une course effrénée au profit et à la domination.

404 MédiasLes excellents reportages de valent la peine d’être lus.

Source-145