mercredi, décembre 25, 2024

Meta lance Sphere, un outil de connaissance de l’IA basé sur un contenu Web ouvert, utilisé initialement pour vérifier les citations sur Wikipedia

Facebook est peut-être tristement célèbre pour avoir contribué à inaugurer l’ère des « fake news », mais il a également essayé de se faire une place dans le suivi : la bataille sans fin pour le combattre. Dans le dernier développement sur ce front, le parent de Facebook Meta a annoncé aujourd’hui un nouvel outil appelé Sphere, AI construit autour du concept d’exploiter le vaste référentiel d’informations sur le Web ouvert pour fournir une base de connaissances pour que l’IA et d’autres systèmes fonctionnent. Selon Meta, le premier utilisateur de Sphere est Wikipedia, qui l’utilise pour analyser automatiquement les entrées et identifier quand les citations dans ses entrées sont fortement ou faiblement prises en charge.

L’équipe de recherche a ouvert Sphere – qui est actuellement basé sur 134 millions de pages Web publiques.

Voici comment cela fonctionne en action :

L’idée derrière l’utilisation de Sphère pour Wikipédia est simple : l’encyclopédie en ligne compte 6,5 millions d’entrées et voit en moyenne quelque 17 000 articles ajoutés chaque mois. Le concept de wiki derrière cela signifie effectivement que l’ajout et l’édition de contenu sont externalisés, et bien qu’il y ait une équipe d’éditeurs chargée de superviser cela, c’est une tâche ardue qui grandit de jour en jour, non seulement à cause de cette taille mais à cause de son mandat, compte tenu du nombre de personnes, ainsi que de plus en plus d’éducateurs et d’autres institutions, qui s’y fient comme référentiel d’archives.

Dans le même temps, la Wikimedia Foundation, qui supervise Wikipédia, a réfléchi à de nouvelles façons d’exploiter toutes ces données. Le mois dernier, il a annoncé un niveau Entreprise et ses deux premiers clients commerciaux, Google et Internet Archive, qui utilisent des données basées sur Wikipédia pour leurs propres intérêts commerciaux et auront désormais des accords de service plus larges et plus formels autour de cela.

Pour être clair, les annonces d’aujourd’hui concernant le travail de Meta avec Wikipedia ne font pas référence à Wikimedia Enterprise, mais l’ajout général d’outils supplémentaires pour Wikipedia afin de s’assurer que le contenu dont il dispose est vérifié et exact sera quelque chose que les clients potentiels du service Enterprise voudront à savoir lorsque vous envisagez de payer pour le service.

Meta m’a confirmé qu’il n’y a aucun arrangement financier dans cet accord : ni Wikipédia devenant un client payant de Meta, ni vice versa. Mais Meta note que pour former le modèle Sphere, il a créé « un nouvel ensemble de données (WAFER) de 4 millions de citations Wikipédia, beaucoup plus complexe que jamais utilisé pour ce type de recherche ». Et il y a seulement cinq joursMeta a annoncé que les éditeurs de Wikipédia utilisaient également un nouvel outil de traduction basé sur l’IA qu’il avait construit, il y a donc clairement une relation plus profonde là-bas.

De la part de Meta, l’entreprise continue d’être pesée par une mauvaise perception du public, résultant en partie d’accusations selon lesquelles elle permet à la désinformation et aux idées toxiques de gagner librement du terrain – ou si vous êtes quelqu’un qui s’est retrouvé en «prison Facebook», croire que vous avez partagé quelque chose que vous pensez être bien, mais que vous êtes toujours tombé à l’encontre d’une police sociale trop zélée. C’est certainement un gâchis, mais à cet égard, lancer quelque chose comme Sphere ressemble un peu à un exercice de relations publiques pour Meta, autant qu’à un outil potentiellement utile : si cela fonctionne, cela montre qu’il y a des gens dans l’organisation qui essaient de travailler de bonne foi. .

Quelques détails supplémentaires sur Sphère et comment Wikipedia l’utilise, et ce qui pourrait suivre :

— Meta estime que la base de connaissances « boîte blanche » que représente Sphère contient beaucoup plus de données (et, par conséquent, plus de sources à faire correspondre pour la vérification) qu’une source de connaissances « boîte noire » typique basée sur les résultats de, par exemple, moteurs de recherche propriétaires. « Parce que Sphere peut accéder à beaucoup plus d’informations publiques que les modèles standard actuels, il pourrait fournir des informations utiles qu’ils ne peuvent pas », a-t-il noté dans un article de blog. Les 134 millions de documents que Meta a utilisés pour rassembler et former Sphere ont été divisés en 906 millions de passages de 100 jetons chacun.

— En open source cet outil, l’argument de Meta est qu’il s’agit d’une base plus solide pour les modèles de formation à l’IA et d’autres travaux que n’importe quelle base propriétaire. Tout de même, il concède que les fondements mêmes de la connaissance sont potentiellement fragiles, surtout en ces premiers jours. Que se passe-t-il si une « vérité » n’est tout simplement pas diffusée aussi largement que la désinformation ? C’est là que Meta veut concentrer ses efforts futurs dans Sphere. « Notre prochaine étape consiste à former des modèles pour évaluer la qualité des documents récupérés, détecter les contradictions potentielles, donner la priorité à des sources plus fiables – et, s’il n’existe aucune preuve convaincante, concéder qu’ils peuvent encore, comme nous, être perplexes », a-t-il noté.

— Dans ce sens, cela soulève des questions intéressantes sur ce sur quoi la hiérarchie de la vérité de Sphere sera basée par rapport à celles des autres bases de connaissances. Parce qu’il est open source, les utilisateurs peuvent avoir la possibilité de modifier ces algorithmes de manière mieux adaptée à leurs propres besoins. (Par exemple, un utilisateur mettant en œuvre Sphere pour vérifier la base de références juridiques peut accorder plus de crédibilité aux documents judiciaires et aux bases de données de jurisprudence qu’un utilisateur vérifiant les références de mode ou de sport, ce qui mettrait davantage l’accent sur d’autres sources.)

— Meta a confirmé qu’il n’utilisait pas Sphere ou une version de celui-ci sur ses propres plateformes comme Facebook, Instagram et Messenger, qui eux-mêmes sont depuis longtemps aux prises avec la désinformation et la toxicité des mauvais acteurs. (Nous avons également demandé s’il y avait d’autres clients en ligne pour Sphere.) Il dispose d’outils distincts pour gérer son propre contenu et le modérer.

— Surtout, il semble que quelque chose comme ça soit conçu pour une méga échelle. La taille actuelle de Wikipédia a sans doute dépassé ce que n’importe quelle équipe d’humains de taille seule pourrait vérifier pour l’exactitude, donc l’idée ici est que Sphere est utilisé pour analyser automatiquement des centaines de milliers de citations simultanément pour repérer quand une citation n’a pas beaucoup de support sur le Web : « Si une citation semble non pertinente, notre modèle suggérera une source plus applicable, pointant même vers le passage spécifique qui soutient l’affirmation », a-t-il noté.

Bien que ce soit en phase de production pour le moment, il semble également que les éditeurs sélectionnent les passages qui pourraient avoir besoin d’être vérifiés pour le moment. « À terme, notre objectif est de créer une plate-forme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou à corriger le contenu de l’article correspondant à grande échelle. »

Mis à jour avec un commentaire supplémentaire de Meta.

Source-146

- Advertisement -

Latest