Un procès contre Meta a révélé des communications internes sur l’utilisation de données protégées pour entraîner ses modèles d’intelligence artificielle, notamment Llama. Des courriels discutent de l’utilisation potentielle de Library Genesis pour obtenir des données, tout en cherchant à dissimuler l’origine de celles-ci. Ces échanges soulignent les ambitions de Meta face à des concurrents comme OpenAI, ainsi que les préoccupations liées à la légalité de ses pratiques en matière de droits d’auteur.
Une Révélation Alarmante sur les Pratiques de Meta
Un procès majeur en matière de droits d’auteur impliquant Meta a mis en lumière une série de communications internes concernant les ambitions de l’entreprise pour ses modèles d’intelligence artificielle open-source, connus sous le nom de Llama. Ces échanges incluent des discussions sur la nécessité d’éviter « la couverture médiatique suggérant que nous avons utilisé un ensemble de données que nous savons être piraté. »
Les messages, récemment dévoilés par un tribunal californien, indiquent que Meta aurait utilisé des données protégées par des droits d’auteur pour entraîner ses systèmes d’IA tout en tentant de dissimuler cette utilisation. L’entreprise cherchait à devancer des concurrents tels qu’OpenAI et Mistral. Des extraits de ces échanges ont été révélés pour la première fois la semaine dernière.
Les Plans Ambitieux de Meta et l’Utilisation de LibGen
Dans un courriel d’octobre 2023 adressé au chercheur en IA de Meta, Hugo Touvron, Ahmad Al-Dahle, vice-président de l’IA générative, a souligné que l’objectif de l’entreprise devait être « GPT4 », en référence au modèle de langage avancé lancé par OpenAI en mars 2023. Al-Dahle a ajouté que Meta devait « apprendre à construire des frontières et gagner cette course » pour rester compétitif.
Un autre courriel, envoyé par Sony Theakanath, directeur de produit chez Meta, au vice-président de la recherche en IA, Joelle Pineau, évoquait l’éventuelle utilisation de Library Genesis (LibGen) pour l’entraînement de modèles. Theakanath a mentionné que « GenAI a été approuvé pour utiliser LibGen pour Llama3… avec un certain nombre de mesures convenues », après avoir escaladé la question à « MZ », probablement le PDG de Meta, Mark Zuckerberg. Il a également souligné que « LibGen est essentiel pour atteindre des chiffres SOTA [state-of-the-art] », tout en notant que des entreprises comme OpenAI et Mistral pourraient également recourir à cette bibliothèque, bien qu’aucune d’elles n’ait confirmé l’information.
Ces documents judiciaires proviennent d’un recours collectif initié par des personnalités telles que l’auteur Richard Kadrey et la comédienne Sarah Silverman, accusant Meta d’avoir illégalement utilisé du contenu protégé pour entraîner ses modèles d’IA, en violation des lois sur la propriété intellectuelle. Meta, à l’instar d’autres entreprises d’IA, défend l’idée que l’utilisation de matériel protégé devrait être considérée comme un usage équitable légal.
Les échanges révèlent également que certaines mesures pour utiliser LibGen incluaient des stipulations visant à « supprimer les données clairement marquées comme piratées/volées », tout en évitant de mentionner extérieurement « l’utilisation de données d’entraînement » issues du site. Un autre courriel a abordé les « risques politiques » liés à l’utilisation de LibGen, notamment la réaction potentielle des régulateurs face à la couverture médiatique suggérant que Meta avait utilisé du contenu piraté.
Dans le contexte de cette frénésie pour les données, des dirigeants de Meta ont même discuté d’acheter Simon & Schuster dans le but d’accroître leurs ressources de données. Ces discussions interviennent alors que l’entreprise semble avoir épuisé presque toutes les ressources en anglais disponibles en ligne, ce qui souligne l’urgence de la situation.