Les fondateurs de TollBit, une start-up new-yorkaise fondée il y a six mois, pensent que nous vivons à l’époque de Napster en matière d’intelligence artificielle. Tout comme les gens d’une certaine génération téléchargeaient de la musique numérique, les entreprises pillent de vastes pans d’Internet sans payer les détenteurs de droits. Ils veulent que TollBit soit l’iTunes du monde de l’intelligence artificielle.
« C’est un peu le Far West en ce moment », a déclaré Olivia Joslin, cofondatrice et directrice opérationnelle de l’entreprise, lors d’une interview accordée à Engadget. « Nous voulons permettre aux entreprises d’IA de payer plus facilement les données dont elles ont besoin. » Leur idée est simple : créer une place de marché qui relie les entreprises d’IA qui ont besoin d’accéder à des données récentes et de haute qualité aux éditeurs qui dépensent réellement de l’argent pour les créer.
Les entreprises d’IA n’ont en effet commencé à payer que récemment pour (une partie des) données dont elles ont besoin auprès des éditeurs de presse. OpenAI a lancé une course aux armements à la fin de 2022, mais il y a seulement un an que la société a signé le premier de ses nombreux accords de licence avec l’Associated Press. Plus tard dans l’année, OpenAI a annoncé un partenariat avec l’éditeur allemand Axel Springer, qui exploite Business Insider et Politique aux États-Unis. Plusieurs éditeurs, dont Voxle Le Financial TimesNews Corp et TEMPSont depuis signé des accords avec OpenAI et Google.
Mais cela laisse encore de nombreux autres éditeurs et créateurs dans l’ignorance, sans possibilité de conclure ce pacte faustien, même s’ils le souhaitent. C’est la « longue traîne » d’éditeurs que TollBit veut cibler.
« Il existe déjà des modèles d’IA puissants et ils ont déjà été formés », a déclaré à Engadget Toshit Panigrahi, cofondateur et PDG de TollBit. « Et à l’heure actuelle, des milliers d’applications se contentent de reprendre ces modèles existants. Ce dont elles ont besoin, c’est de contenu nouveau. Mais pour l’instant, il n’existe pas d’infrastructure, ni pour qu’elles puissent l’acheter, ni pour que les créateurs de contenu puissent le vendre de manière transparente. »
Joslin et Panigrahi n’étaient pas particulièrement compétents dans le secteur des médias. Mais ils savaient tous deux comment fonctionnaient les marchés et les plateformes en ligne : ils étaient collègues chez Toast, une plateforme qui permet aux restaurants de gérer la facturation et les réservations. Panigrahi a vu les deux affaires – et les poursuites – s’accumuler dans le secteur de l’IA, puis a fait appel à Joslin.
Leurs premières conversations portaient sur le RAG, qui signifie Retrieval-Augmented Generation dans le monde de l’IA. Avec le RAG, les modèles d’IA recherchent d’abord des informations dans des bases de données spécifiques (comme les parties récupérables d’Internet) et utilisent ces informations pour synthétiser une réponse au lieu de se fier simplement aux données d’entraînement. Des services comme ChatGPT ne connaissent pas les prix actuels des logements, ni les dernières nouvelles. Au lieu de cela, ils récupèrent ces données, généralement en consultant des sites Web. Cette absence de données récentes est la raison pour laquelle les chatbots d’IA sont souvent déconcertés par les requêtes sur les événements d’actualité : s’ils ne récupèrent pas les données les plus récentes, ils ne peuvent tout simplement pas suivre le rythme.
« Nous avons pensé que l’utilisation du contenu pour le RAG était quelque chose de fondamentalement différent de son utilisation pour la formation », a déclaré Panigrahi.
Selon certaines estimations, RAG est l’avenir des moteurs de recherche. De plus en plus de gens posent des questions sur Internet et s’attendent à des réponses complètes en retour plutôt qu’à une liste de liens bleus. En un peu plus d’un an, des startups comme Perplexity, soutenues entre autres par Jess Bezos et NVIDIA, ont fait irruption sur la scène avec l’ambition de concurrencer Google. Même OpenAI a prévu de laisser un jour ChatGPT devenir votre moteur de recherche. En réponse, Google est passé à l’action : il extrait désormais les informations pertinentes des résultats de recherche et les présente sous la forme d’une réponse cohérente en haut de la page de résultats, une fonctionnalité qu’il appelle AI Overviews. (Cela ne fonctionne pas toujours bien, mais semble être là pour durer).
L’essor des moteurs de recherche basés sur RAG fait trembler les éditeurs. Après tout, qui gagnerait de l’argent si l’IA lisait Internet à notre place ? Après le lancement par Google d’AI Overviews plus tôt cette année, au moins un rapport a estimé que les éditeurs perdraient plus de 2 milliards de dollars de revenus publicitaires car moins de personnes auraient de bonnes raisons de visiter leurs sites Web. « Les entreprises d’IA ont également besoin d’un accès continu à du contenu et des données de haute qualité », a déclaré Joslin, « mais si vous ne trouvez pas de modèle économique, personne n’aura d’incitation à créer du contenu, et ce sera également la fin des applications d’IA. »
Au lieu de verser des chèques ponctuels, le modèle de TollBit vise à rémunérer les éditeurs de manière continue. Hypothétiquement, si le contenu d’une personne était utilisé dans mille réponses générées par l’IA, elle serait payée mille fois à un prix qu’elle fixerait et qu’elle pourrait modifier à la volée.
Chaque fois qu’une entreprise d’IA accède à de nouvelles données d’un éditeur via TollBit, elle peut payer une petite somme fixée par l’éditeur qui, selon Panigrahi et Joslin, devrait être à peu près équivalente à ce que l’éditeur aurait perçu en consultant une page traditionnelle. Et la plateforme peut également empêcher les entreprises d’IA qui ne se sont pas inscrites d’accéder aux données des éditeurs.
Jusqu’à présent, les fondateurs affirment avoir intégré une centaine d’éditeurs et sont en phase pilote avec trois sociétés d’IA depuis le lancement de TollBit en février. Ils ont refusé de révéler quels éditeurs ou sociétés d’IA avaient signé jusqu’à présent, invoquant des clauses de confidentialité, mais n’ont pas nié avoir parlé avec OpenAI, Anthropic, Google et Meta. Jusqu’à présent, ils affirment qu’aucun échange d’argent n’a eu lieu entre les sociétés d’IA et les éditeurs sur leur plateforme.
En attendant, leur modèle reste une hypothèse géante, même si les investisseurs y ont déjà investi 7 millions de dollars. Parmi les investisseurs de TollBit figurent Sunflower Capital, Lerer Hippeau, Operator Collective, AIX et Liquid 2 Ventures, et d’autres investisseurs « frappent actuellement à leur porte », a affirmé Joslin. En avril, TollBit a également embauché Campbell Brown comme conseiller principal, un ancien présentateur de télévision qui a auparavant été responsable des partenariats d’information de Meta pendant près d’une décennie.
Malgré quelques procès très médiatisés, les entreprises d’IA sont toujours Les fondateurs de TollBit ont expliqué que les sites Web prennent des mesures pour empêcher que leur contenu ne soit récupéré gratuitement et s’en tirent en grande partie. Pourquoi seraient-ils incités à payer les éditeurs pour ces données ? Les fondateurs expliquent que les sites Web prennent de plus en plus de mesures pour empêcher que leur contenu ne soit récupéré depuis que l’IA générative est devenue courante, ce qui signifie que récupérer le Web devient de plus en plus difficile et coûteux ; personne ne veut faire face à des poursuites judiciaires en cours pour atteinte aux droits d’auteur ; et, surtout, le fait de pouvoir payer facilement le contenu en fonction des besoins permet aux entreprises d’IA d’accéder à des publications plus petites et plus spécialisées, car il n’est pas possible de conclure des accords de licence individuels avec chaque site Web. Joslin a également souligné que plusieurs investisseurs de TollBit ont également investi dans des entreprises d’IA qui, selon eux, pourraient faire l’objet de poursuites judiciaires pour avoir utilisé du contenu sans autorisation.
Le fait d’obliger les entreprises d’IA à payer pour le contenu pourrait fournir une source de revenus récurrente non seulement aux grands éditeurs, mais aussi à quiconque publie quelque chose en ligne. Le mois dernier, Perplexity, qui a été accusé d’avoir illégalement récupéré du contenu de Forbes, Câblé et Condé Nast — a lancé un programme d’éditeurs dans le cadre duquel elle prévoit de partager une partie des revenus qu’elle percevra avec les éditeurs si elle utilise leur contenu pour générer des réponses avec l’IA. Le succès du programme dépend cependant de la somme d’argent que Perplexity gagnera lorsqu’elle introduirea des publicités dans l’application plus tard cette année. Comme Tollbit, il s’agit d’une autre hypothèse complète.
« Notre thèse avec TollBit est que si vous perdez une page vue aujourd’hui, vous devriez être indemnisé immédiatement plutôt que quelques années plus tard, lorsqu’une entreprise technologique découvre son programme publicitaire », a déclaré Panigrahi à propos de l’initiative de Perplexity.
Malgré tous les accords de licence et les avancées techniques existants, les chatbots basés sur l’IA restent de très mauvaises sources d’information. Ils inventent toujours des faits et créent avec assurance des liens entiers vers des histoires qui n’existent pas réellement. Mais les entreprises technologiques insèrent désormais des chatbots basés sur l’IA dans tous les recoins possibles, ce qui signifie que de nombreuses personnes continueront de s’informer grâce à l’un de ces produits dans un avenir pas si lointain.
Une version plus cynique de la prémisse de TollBit est que la start-up offre en réalité de l’argent pour faire taire les éditeurs dont le travail est plus susceptible d’être transformé en désinformation. Ses fondateurs, naturellement, ne sont pas d’accord avec cette caractérisation. « Nous sommes prudents quant aux partenaires d’IA que nous embarquons », a déclaré Panigrahi. « Ces entreprises sont très attentives à la qualité du matériel d’entrée et à l’exactitude des réponses. Nous constatons que le fait de payer pour du contenu – même pour des montants nominaux – incite à respecter les entrées brutes dans leurs systèmes au lieu de les traiter comme une marchandise gratuite et remplaçable. »