Twitter publie le code qui, selon lui, détermine quels tweets les gens voient et pourquoi

Agrandir / Twitter a publié ce qu’il déclare être le code utilisé par son algorithme pour recommander des tweets à ses utilisateurs.

Twitter a bien fait l’une des nombreuses promesses du PDG Elon Muskpubliant un vendredi après-midi ce qu’il prétend être le code de son algorithme de recommandation de tweet sur GitHub.

Le code, publié sous une licence publique générale GNU Affero v3.0, contient de nombreuses informations sur les facteurs qui font qu’un tweet est plus ou moins susceptible d’apparaître dans la chronologie des utilisateurs.

Dans un article de blog accompagnant la publication du code, l’équipe d’ingénieurs de Twitter (sans signature particulière) note que le système permettant de déterminer les « meilleurs Tweets qui s’affichent finalement sur la chronologie For You de votre appareil » est « composé de nombreux services et emplois interconnectés ». Chaque fois qu’un écran d’accueil Twitter est actualisé, Twitter extrait « les 1 500 meilleurs Tweets d’un pool de centaines de millions », indique le message.

La plus grande source de ces tweets sont les « sources en réseau », ou les utilisateurs que quelqu’un suit. Les meilleurs tweets de cette pile sont classés en fonction de la probabilité d’engagement d’un utilisateur avec l’auteur de ce tweet ; plus il y a de chances, plus leurs tweets apparaissent dans For You. Pour les « sources hors réseau », celles qui ne sont pas suivies par l’utilisateur, Twitter indique qu’il considère les tweets qui ont attiré l’engagement des personnes que les utilisateurs suivent et les tweets aimés par ceux qui aiment les tweets similaires à un utilisateur.

Déjà, ceux qui ont parcouru le code ont repéré des considérations qui soulèvent beaucoup plus de questions. Beaucoup les ont postés, naturellement, sur Twitter lui-même.

Ólafur Waage, développeur de logiciels senior au service norvégien de conseil en logiciels TurtleSec, a noté qu’à l’intérieur de « HomeTweetTypePredicates.scala », certaines des considérations apparentes pour qu’un tweet soit candidat à la section « Pour vous » sont :

  • author_is_elon
  • author_is_power_user
  • author_is_democrat
  • author_is_republican

Ailleurs dans le code, un commentaire de code vraisemblablement laissé par un ingénieur de Twitter précise que ces valeurs d’identification sont « utilisées uniquement pour la collecte de métriques ». Le commentaire se lit comme suit :

Ces listes d’ID d’auteur sont utilisées uniquement pour la collecte de métriques. Nous suivons la fréquence à laquelle nous diffusons les Tweets de ces auteurs et la fréquence à laquelle leurs tweets sont impressionnés par les utilisateurs. Cela nous aide à valider dans notre plate-forme d’expérimentation A/B que nous n’envoyons pas de modifications qui ont un impact négatif sur un groupe par rapport aux autres.

Les noms des objets en question tels que « DDGStatsDemocratsFeature » ou « DDGStatsElonFeature » semblent soutenir cette interprétation, mais il peut ne pas être possible de le confirmer avec le code disponible. Il est intéressant que Twitter vérifie et rassemble ces variables, cependant. Lors d’une session audio sur Twitter Spaces, un ingénieur de Twitter a noté que les étiquettes démocrate et républicain étaient utilisées pour les métriques. Musk, qui a affirmé qu’il n’était pas au courant des étiquettes avant aujourd’hui, a suggéré qu’elles ne devraient pas être là.

D’autres éléments pris en compte à propos d’un tweet incluent s’il date de moins de 30 minutes, s’il contient des images et s’il provient d’un « utilisateur expérimenté », ce qui certains croient signifie un compte vérifié « hérité ».

Musk a tweeté à côté du billet de blog de la société que l’algorithme de recommandation, affirmant que le « test acide » sera si « des tiers indépendants » peuvent « déterminer, avec une précision raisonnable, ce qui sera probablement montré aux utilisateurs ».

La publication par Twitter de son code d’algorithme intervient quelques jours seulement après la découverte du code source plus large du réseau social sur GitHub, potentiellement présent depuis des mois, selon le New York Times. Twitter a ensuite obtenu une assignation obligeant GitHub à révéler les informations de l’affiche GitHub.

Un rapport de Platformer plus tôt cette semaine suggérait que Twitter utilisait une liste secrète des 35 principaux utilisateurs de Twitter, dont le président Biden, LeBron James, Ben Shapiro et Musk. La preuve de la mise en œuvre de cette liste, qui aurait été stimulée en partie par le mécontentement de Musk à l’égard de son propre engagement, n’a pas été trouvée jusqu’à présent dans la base de code publiée de Twitter.

Plus particulièrement, le code arrive quelques heures seulement avant que les utilisateurs « vérifiés hérités » – ceux qui ont reçu une coche bleue pour indiquer l’authenticité ou la notabilité avant l’achat du service par Musk – ne soient pas vérifiés en faveur des abonnés payants de Twitter Blue. Bien que certains utilisateurs liés aux gouvernements et aux grandes organisations puissent demander coches d’autres couleursseuls les abonnés Twitter Blue, à 8 $ par mois, recevront « un classement prioritaire dans les conversations », entre autres fonctionnalités.

Tous ces changements arrivent le 1er avril ou le jour du poisson d’avril.

Source-147