lundi, novembre 25, 2024

L’équipe d’IA de NVIDIA aurait supprimé des vidéos YouTube et Netflix sans autorisation

Dans le dernier exemple d’une tendance industrielle troublante, NVIDIA semble avoir récupéré des trésors de contenu protégé par le droit d’auteur pour la formation de l’IA. Lundi, Samantha Cole de 404 Media a rapporté L’entreprise de 2,4 billions de dollars a demandé à ses employés de télécharger des vidéos de YouTube, Netflix et d’autres bases de données pour développer des projets commerciaux d’IA. Le fabricant de cartes graphiques fait partie des entreprises technologiques qui semblent avoir adopté une philosophie du « va vite et casse tout » dans leur course pour établir leur domination dans cette ruée vers l’or de l’IA, trop souvent honteuse et fiévreuse.

Selon certaines informations, la formation visait à développer des modèles pour des produits tels que son générateur de monde 3D Omniverse, ses systèmes de voitures autonomes et ses efforts en matière d’« humain numérique ».

NVIDIA a défendu sa pratique dans un courriel adressé à Engadget. Un porte-parole de l’entreprise a déclaré que ses recherches étaient « en totale conformité avec la lettre et l’esprit de la loi sur le droit d’auteur » tout en affirmant que les lois sur la propriété intellectuelle protègent des expressions spécifiques « mais pas des faits, des idées, des données ou des informations ». L’entreprise a assimilé cette pratique au droit d’une personne à « apprendre des faits, des idées, des données ou des informations d’une autre source et à les utiliser pour s’exprimer elle-même ». Humain, ordinateur… quelle est la différence ?

YouTube ne semble pas être d’accord. Le porte-parole Jack Malon nous a indiqué un Article de Bloomberg En avril, le directeur général de YouTube, Neal Mohan, a déclaré que l’utilisation de YouTube pour former des modèles d’IA serait une « violation flagrante » de ses conditions. « Notre commentaire précédent est toujours valable », a écrit le responsable de la communication sur la politique de YouTube à Engadget.

Cette citation de Mohan en avril était une réponse aux rapports selon lesquels OpenAI aurait entraîné son générateur de texte en vidéo Sora sur des vidéos YouTube sans autorisation. Le mois dernier, un rapport a montré que la startup Runway AI avait suivi le même exemple.

Les employés de NVIDIA qui ont soulevé des inquiétudes éthiques et juridiques à propos de cette pratique auraient été informés par leurs responsables que cette pratique avait déjà reçu le feu vert des plus hautes instances de l’entreprise. « C’est une décision de la direction », a répondu Ming-Yu Liu, vice-président de la recherche chez NVIDIA. « Nous avons une approbation générale pour toutes les données. » D’autres personnes au sein de l’entreprise auraient décrit cette collecte comme une « question juridique ouverte » qu’ils régleraient plus tard.

Tout cela ressemble à la vieille devise de Facebook (Meta) « bougez vite et cassez des choses », qui a admirablement réussi à briser pas mal de choses. Cela inclut la vie privée de millions de personnes.

En plus des vidéos YouTube et Netflix, NVIDIA aurait demandé à ses employés de s’entraîner sur la base de données de bandes-annonces de films MovieNet, sur les bibliothèques internes de séquences de jeux vidéo et sur les ensembles de données vidéo Github WebVid (maintenant supprimé après une mise en demeure) et InternVid-10M. Ce dernier est un ensemble de données contenant 10 millions d’identifiants vidéo YouTube.

Certaines des données sur lesquelles NVIDIA aurait été formé étaient uniquement considérées comme éligibles à un usage académique (ou non commercial). HD-VG-130M, une bibliothèque de 130 millions de vidéos YouTube, comprend une licence d’utilisation spécifiant qu’elle est uniquement destinée à la recherche académique. NVIDIA aurait balayé les inquiétudes concernant les conditions d’utilisation exclusivement académiques, insistant sur le fait que leurs lots étaient tout à fait adaptés à ses produits d’IA commerciaux.

Pour échapper à la détection de YouTube, NVIDIA aurait téléchargé du contenu à l’aide de machines virtuelles (VM) avec des adresses IP tournantes pour éviter les interdictions. En réponse à la suggestion d’un travailleur d’utiliser un outil de rotation d’adresse IP tiers, un autre employé de NVIDIA aurait écrit : « Nous sommes sur [Amazon Web Services](#) et redémarrer un [virtual machine](#) l’instance donne une nouvelle IP publique[.](#) Donc, ce n’est pas un problème jusqu’à présent.

404 MédiasLe rapport complet sur les pratiques de NVIDIA mérite d’être lu.

Source-145

- Advertisement -

Latest