Au génératif Boom de l’IA, les données sont le nouveau pétrole. Alors pourquoi ne pourriez-vous pas vendre le vôtre ?
Des grandes entreprises technologiques aux startups, les créateurs d’IA acquièrent des licences pour des livres électroniques, des images, des vidéos, des fichiers audio et bien plus encore auprès de courtiers en données, le tout dans le but de former des produits basés sur l’IA plus performants (et plus défendables légalement). Shutterstock a conclu des accords avec Meta, Google, Amazon et Apple pour fournir des millions d’images pour la formation des modèles, tandis qu’OpenAI a signé des accords avec plusieurs agences de presse pour former ses modèles sur des archives d’actualités.
Dans de nombreux cas, les créateurs et propriétaires individuels de ces données n’ont pas vu un seul centime d’argent changer de mains. Une startup appelée Vana veut changer cela.
Anna Kazlauskas et Art Abal, qui se sont rencontrés dans un cours du MIT Media Lab axé sur la création de technologies pour les marchés émergents, ont cofondé Vana en 2021. Avant Vana, Kazlauskas a étudié l’informatique et l’économie au MIT, qu’il a finalement quitté pour lancer une fintech. startup d’automatisation, Iambiq, sur Y Combinator. Abal, avocat d’affaires de formation et d’éducation, était associé chez The Cadmus Group, un cabinet de conseil basé à Boston, avant de diriger l’approvisionnement d’impact au sein de la société d’annotation de données Appen.
Avec Vana, Kazlauskas et Abal ont entrepris de créer une plate-forme qui permet aux utilisateurs de « regrouper » leurs données – y compris les discussions, les enregistrements vocaux et les photos – dans des ensembles de données qui peuvent ensuite être utilisés pour la formation de modèles d’IA génératifs. Ils souhaitent également créer des expériences plus personnalisées – par exemple, des messages vocaux de motivation quotidiens basés sur vos objectifs de bien-être ou une application génératrice d’art qui comprend vos préférences de style – en affinant les modèles publics sur ces données.
« L’infrastructure de Vana crée en fait un trésor de données appartenant à l’utilisateur », a déclaré Kazlauskas à TechCrunch. « Pour ce faire, il permet aux utilisateurs de regrouper leurs données personnelles de manière non conservatrice… Vana permet aux utilisateurs de posséder des modèles d’IA et d’utiliser leurs données dans des applications d’IA. »
Voici comment Vana présente sa plateforme et son API aux développeurs :
L’API Vana connecte les données personnelles multiplateformes d’un utilisateur… pour vous permettre de personnaliser votre application. Votre application obtient un accès instantané au modèle d’IA personnalisé ou aux données sous-jacentes d’un utilisateur, simplifiant ainsi l’intégration et éliminant les problèmes de coûts de calcul… Nous pensons que les utilisateurs devraient pouvoir importer leurs données personnelles provenant de jardins clos, comme Instagram, Facebook et Google, vers votre application, donc vous pouvez créer une expérience personnalisée étonnante dès la première fois qu’un utilisateur interagit avec votre application d’IA grand public.
Créer un compte avec Vana est assez simple. Après avoir confirmé votre e-mail, vous pouvez joindre des données à un avatar numérique (comme des selfies, une description de vous-même et des enregistrements vocaux) et explorer des applications créées à l’aide de la plate-forme et des ensembles de données de Vana. La sélection d’applications va des chatbots de style ChatGPT et des livres d’histoires interactifs à un générateur de profil Hinge.
Maintenant, pourquoi, pourriez-vous vous demander – à l’ère de la sensibilisation accrue à la confidentialité des données et des attaques de ransomwares – quelqu’un donnerait-il ses informations personnelles à une startup anonyme, et encore moins à une start-up financée par du capital-risque ? (Vana a déjà levé 20 millions de dollars auprès de Paradigm, Polychain Capital et d’autres bailleurs de fonds.) Peut-on vraiment faire confiance à une entreprise à but lucratif pour ne pas abuser ou mal gérer les données monétisables sur lesquelles elle met la main ?
En réponse à cette question, Kazlauskas a souligné que l’objectif principal de Vana est que les utilisateurs « reprennent le contrôle de leurs données », notant que les utilisateurs de Vana ont la possibilité d’auto-héberger leurs données plutôt que de les stocker sur les serveurs de Vana et de contrôler la manière dont leurs données sont hébergées. les données sont partagées avec les applications et les développeurs. Elle a également fait valoir que, parce que Vana gagne de l’argent en facturant aux utilisateurs un abonnement mensuel (à partir de 3,99 $) et en imposant des frais de « transaction de données » aux développeurs (par exemple pour le transfert d’ensembles de données pour la formation de modèles d’IA), l’entreprise n’est pas incitée à exploiter les utilisateurs et les trésors de données personnelles qu’ils apportent avec eux.
« Nous voulons créer des modèles détenus et gouvernés par des utilisateurs qui apportent tous leurs données », a déclaré Kazlauskas, « et permettre aux utilisateurs d’apporter leurs données et leurs modèles avec eux dans n’importe quelle application. »
Maintenant, pendant que Vana ne vend pas les données des utilisateurs à des entreprises pour la formation de modèles d’IA génératifs (du moins c’est ce qu’il prétend), il veut permettre aux utilisateurs de le faire eux-mêmes s’ils le souhaitent, en commençant par leurs publications sur Reddit.
Ce mois-ci, Vana a lancé ce qu’elle appelle Reddit Data DAO (Digital Autonomous Organization), un programme qui regroupe les données Reddit de plusieurs utilisateurs (y compris leur karma et leur historique de publication) et leur permet de décider ensemble de la manière dont ces données combinées sont utilisées. Après avoir rejoint un compte Reddit, soumis une demande à Reddit pour leurs données et téléchargé ces données sur le DAO, les utilisateurs obtiennent le droit de voter aux côtés d’autres membres du DAO sur des décisions telles que l’octroi de licences pour les données combinées à des sociétés d’IA générative pour un bénéfice partagé. .
C’est en quelque sorte une réponse aux récentes initiatives de Reddit visant à commercialiser les données sur sa plateforme.
Auparavant, Reddit ne garantissait pas l’accès aux publications et aux communautés à des fins de formation à l’IA générative. Mais il a inversé sa tendance à la fin de l’année dernière, avant son introduction en bourse. Depuis le changement de politique, Reddit a récolté plus de 203 millions de dollars en frais de licence auprès d’entreprises, dont Google.
« L’idée générale [with the DAO is] pour libérer les données des utilisateurs des principales plates-formes qui cherchent à les accumuler et à les monétiser », a déclaré Kazlauskas. « C’est une première et cela fait partie de nos efforts visant à aider les gens à regrouper leurs données dans des ensembles de données appartenant aux utilisateurs pour former des modèles d’IA. »
Sans surprise, Reddit – qui ne travaille pas officiellement avec Vana – n’est pas satisfait du DAO.
Reddit a interdit le subreddit de Vana dédié aux discussions sur le DAO. Et un porte-parole de Reddit a accusé Vana d’avoir « exploité » son système d’exportation de données, conçu pour se conformer aux réglementations sur la confidentialité des données telles que le RGPD et le California Consumer Privacy Act.
« Nos arrangements en matière de données nous permettent de mettre des garde-fous sur ces entités, même sur les informations publiques », a déclaré le porte-parole à TechCrunch. «Reddit ne partage pas de données personnelles non publiques avec des entreprises commerciales, et lorsque les Redditors nous demandent l’exportation de leurs données, ils reçoivent de notre part des données personnelles non publiques conformément aux lois applicables. Des partenariats directs entre Reddit et des organisations approuvées, avec des termes et des responsabilités clairs, et ces partenariats et accords empêchent l’utilisation abusive et abusive des données des personnes.
Mais Reddit a-t-il de réelles raisons de s’inquiéter ?
Kazlauskas envisage une croissance du DAO au point où cela aura un impact sur le montant que Reddit peut facturer aux clients pour ses données. C’est loin d’être le cas, en supposant que cela se produise un jour ; le DAO compte un peu plus de 141 000 membres, soit une infime fraction des 73 millions d’utilisateurs de Reddit. Et certains de ces membres pourraient être des robots ou des comptes en double.
Il y a ensuite la question de savoir comment répartir équitablement les paiements que le DAO pourrait recevoir des acheteurs de données.
Actuellement, le DAO attribue des « jetons » – crypto-monnaie – aux utilisateurs correspondant à leur karma Reddit. Mais le karma n’est peut-être pas la meilleure mesure de la qualité des contributions à l’ensemble de données, en particulier dans les petites communautés Reddit qui ont moins de possibilités d’en gagner.
Kazlauskas lance l’idée que les membres du DAO pourraient choisir de partager leurs données multiplateformes et démographiques, ce qui rendrait le DAO potentiellement plus précieux et encouragerait les inscriptions. Mais cela nécessiterait également que les utilisateurs fassent encore plus confiance à Vana pour traiter leurs données sensibles de manière responsable.
Personnellement, je ne vois pas le DAO de Vana atteindre une masse critique. Les obstacles qui s’y opposent sont bien trop nombreux. Je pense cependant que ce ne sera pas la dernière tentative populaire d’affirmer le contrôle des données de plus en plus utilisées pour former des modèles d’IA génératifs.
Des startups comme Spawning travaillent sur des moyens permettant aux créateurs d’imposer des règles régissant la manière dont leurs données sont utilisées à des fins de formation, tandis que des fournisseurs comme Getty Images, Shutterstock et Adobe continuent d’expérimenter des systèmes de rémunération. Mais personne n’a encore déchiffré le code. Est-ce que ça peut même être fissuré? Compte tenu de la nature féroce de l’industrie de l’IA générative, c’est certainement un défi de taille. Mais peut-être que quelqu’un trouvera un moyen – ou que les décideurs politiques l’imposeront.