Comme promis à plusieurs reprises par le PDG de Twitter, Elon Musk, Twitter a ouvert une partie de son code source à l’inspection publique, y compris l’algorithme qu’il utilise pour recommander des tweets dans les fils d’actualité des utilisateurs.
Sur GitHub, Twitter a publié deux référentiels contenant du code pour de nombreuses parties qui font fonctionner le réseau social, y compris le mécanisme utilisé par Twitter pour contrôler les tweets que les utilisateurs voient sur la chronologie For You. Dans un article de blog, Twitter a qualifié cette décision de « première étape pour être[ing] plus transparent » tout en même temps «[preventing] risque » pour Twitter lui-même et les personnes sur la plate-forme.
Lors d’une session Twitter Spaces aujourd’hui, Musk a précisé:
« Notre version initiale du soi-disant algorithme va être assez embarrassante, et les gens vont trouver beaucoup d’erreurs, mais nous allons les corriger très rapidement », a déclaré Musk. « Même si vous n’êtes pas d’accord avec quelque chose, au moins vous saurez pourquoi c’est là, et que vous n’êtes pas secrètement manipulé… L’analogue, ici, auquel nous aspirons est le grand exemple de Linux en tant que système d’exploitation open source… On peut, en théorie, découvrir de nombreux exploits pour Linux. En réalité, ce qui se passe, c’est que la communauté identifie et corrige ces exploits.
Sur ce deuxième point du billet de blog sur la prévention des risques, les versions open source n’incluent pas le code qui alimente les recommandations publicitaires de Twitter ou les données utilisées pour former l’algorithme de recommandation de Twitter. De plus, ils incluent peu d’instructions sur la façon d’inspecter ou d’utiliser réellement le code, ce qui renforce l’idée que les versions sont strictement axées sur les développeurs.
« [We excluded] tout code qui compromettrait la sécurité et la confidentialité des utilisateurs ou la capacité de protéger notre plate-forme contre les mauvais acteurs, y compris saper nos efforts de lutte contre l’exploitation et la manipulation sexuelles des enfants », a écrit Twitter. C’est un message un peu mitigé à venir quelques semaines seulement après que Twitter a licencié une grande partie de son IA éthique et de son personnel de confiance et de sécurité, qui était responsable de la modération du contenu parmi d’autres tâches liées à la sécurité des utilisateurs. Mais la société insiste néanmoins sur le fait qu’elle « [took] étapes pour garantir que la sécurité et la confidentialité des utilisateurs seraient protégées » avec la version du code d’aujourd’hui.
Twitter indique qu’il travaille sur des outils pour gérer les suggestions de code de la communauté et synchroniser les modifications apportées à son référentiel interne. Vraisemblablement, ceux-ci seront mis à disposition à une date ultérieure – il n’y a aucun signe d’eux à l’heure actuelle.
« Nous allons chercher des suggestions, non seulement sur les bogues, mais aussi sur la façon dont l’algorithme devrait fonctionner », a déclaré Musk lors de la session Spaces. « Ce sera un processus évolutif. Je ne m’attendrais pas à ce que ce soit un mouvement ascendant ininterrompu… mais nous sommes très ouverts à ce qui améliorerait l’expérience utilisateur.
À première vue, l’algorithme est assez complexe, mais pas nécessairement surprenant d’un point de vue technique. Il est composé de plusieurs modèles, y compris un modèle pour détecter les contenus « dangereux pour le travail » ou abusifs, déterminer la probabilité qu’un utilisateur de Twitter interagisse avec un autre utilisateur et calculer la « réputation » d’un utilisateur de Twitter. (On ne sait pas exactement à quoi «réputation» fait référence; la documentation de haut niveau n’est pas claire à ce sujet.) Plusieurs réseaux de neurones sont chargés de classer les tweets et de recommander les comptes à suivre, tandis qu’un composant de filtrage masque les tweets à – pardonnez le jargon – « soutenir la conformité légale, améliorer la qualité des produits, accroître la confiance des utilisateurs, protéger les revenus grâce à l’utilisation de traitements de produits visibles et à filtrage strict et à un déclassement grossier. »
Dans une ingénierie article de blogTwitter en révèle plus sur le pipeline de recommandations, qui, selon lui, s’exécute environ cinq milliards de fois par jour :
« Nous essayons d’extraire les 1 500 meilleurs tweets d’un pool de centaines de millions… Aujourd’hui, la chronologie For You se compose de 50% [tweets from people you don’t follow] et 50% [tweets from people you follow] en moyenne, bien que cela puisse varier d’un utilisateur à l’autre », a écrit Twitter. « Classement [tweets] est réalisé avec un réseau de neurones d’environ 48 millions de paramètres qui est continuellement formé sur les interactions des tweets pour optimiser l’engagement positif (par exemple, les likes, les retweets et les réponses).
Les utilisateurs de Twitter ne voient pas les 1 500 tweets complets, bien sûr. Ils sont filtrés en fonction des restrictions de contenu et d’autres critères et facteurs pris en compte par les modèles, comme si les tweets ont des « rétroactions négatives » et s’ils proviennent principalement du même utilisateur de Twitter, ou d’utilisateurs qui ont été bloqués ou mis en sourdine.
Gizmodo note qu’une chose qui ne semble pas avoir été rendue publique est la liste des VIP que Twitter envoie aux utilisateurs. Cette semaine, Platformer a rapporté que Twitter avait une liste tournante d’utilisateurs remarquables, y compris YouTuber Mr. Beast et le fondateur de Daily Wire, Ben Shapiro, qu’il utilise pour surveiller les changements apportés à l’algorithme de recommandation en augmentant la visibilité de ces « utilisateurs expérimentés » apparemment à volonté. .
Il y a plus de preuves que l’algorithme peut traiter les tweets différemment selon la source. La chercheuse Jane Manchun Wong a noté que l’algorithme de Twitter indique spécifiquement si l’auteur du tweet est Elon Musk et que d’autres étiquettes indiquent si l’auteur est un « utilisateur expérimenté » ainsi que s’il est républicain ou démocrate.
Lors de la session Spaces cet après-midi, un ingénieur de Twitter a déclaré que les étiquettes n’étaient utilisées que pour les métriques. Mais Musk – qui a dit qu’il n’était pas au courant des étiquettes avant aujourd’hui – a dit qu’elles ne devraient pas être là.
« Cela ne devrait certainement pas diviser les gens en républicains et démocrates, cela n’a aucun sens », a déclaré Musk.
La publication du code source intervient après plusieurs controverses impliquant des modifications de l’algorithme de recommandation de Twitter au cours des derniers mois. Selon Platformer, en février, Musk a fait appel aux ingénieurs de Twitter pour reconfigurer l’algorithme afin que ses tweets soient plus largement consultés. (Twitter est ensuite revenu sur ce changement – au moins un peu.) En novembre, Twitter a commencé à montrer aux utilisateurs plus de tweets de personnes qu’ils ne suivent pas – une décision que la plate-forme a tentée avant l’acquisition de Musk, mais qui a ensuite été annulée après une réaction violente des utilisateurs.