Internet n’est pas éternel après tout : CNET supprime les anciens articles pour jouer à Google

Aurich Lawson

CNET, l’un des arrière-grands-pères de l’actualité technologique sur le Web, a connu une année difficile. D’abord, ses articles écrits par l’IA ont déclenché un drame, puis les licenciements ont secoué la publication. Et maintenant, Gizmodo rapporte que le site de 28 ans a supprimé des milliers de ses anciens articles dans le but d’obtenir un meilleur classement dans les recherches Google.

Le processus de suppression a commencé avec de petits lots d’articles et a considérablement augmenté dans la seconde moitié de juillet, entraînant la suppression de milliers d’articles au cours des dernières semaines. Bien que CNET ait confirmé l’élimination des histoires à Gizmodo, le nombre exact d’articles supprimés n’a pas été divulgué.

« La suppression de contenu de notre site n’est pas une décision que nous prenons à la légère. Nos équipes analysent de nombreux points de données pour déterminer s’il existe des pages sur CNET qui ne desservent pas actuellement un public significatif. Il s’agit d’une pratique exemplaire à l’échelle de l’industrie pour les grands sites comme le nôtre. qui sont principalement motivés par le trafic SEO. Dans un monde idéal, nous laisserions tout notre contenu sur notre site à perpétuité. Malheureusement, nous sommes pénalisés par l’Internet moderne pour avoir laissé tout le contenu précédemment publié en direct sur notre site », Taylor Canada, Le directeur principal du marketing et des communications de CNET, a déclaré à Gizmodo.

Le référencement (optimisation pour les moteurs de recherche) est la pratique consistant à tenter d’obtenir délibérément un meilleur classement dans les résultats des moteurs de recherche en modifiant le contenu d’un site Web. Les partisans des techniques de référencement estiment qu’un classement plus élevé dans les résultats de recherche Google peut affecter de manière significative le nombre de visiteurs, les ventes de produits ou les revenus publicitaires. De nombreuses entreprises vont à l’extrême en essayant de plaire à l’algorithme de classement de Google.

Une théorie de l’amélioration du classement des pages implique une pratique appelée « l’élagage du contenu ». Gizmodo a obtenu une note interne de CNET qui déclare que la suppression des anciennes URL « envoie un signal à Google qui dit que CNET est frais, pertinent et digne d’être placé plus haut que nos concurrents dans les résultats de recherche. » Cependant, avant de supprimer un article, CNET aurait maintenu une copie locale, envoie l’histoire à la Wayback Machine de The Internet Archive et informe tous les auteurs actuellement employés qui pourraient être affectés au moins 10 jours à l’avance.

Cependant, certains experts disent que l’exemple extrême d’élagage de contenu de CNET est erroné. Le site Web Search Engine Land note que si Google a déjà conseillé (en 2011) que la suppression des « pages de mauvaise qualité » pourrait potentiellement augmenter le classement, il indique également que Google n’a jamais conseillé aux gens de supprimer du contenu simplement parce qu’il est ancien. En effet, mardi, le compte SearchLiaison X de Google tweeté« Supprimez-vous du contenu de votre site parce que vous pensez d’une manière ou d’une autre que Google n’aime pas le contenu « ancien » ? Ce n’est pas grave ! Nos conseils ne l’encouragent pas. Un contenu plus ancien peut également être utile. En savoir plus sur la création contenu. »

La longue et continue décadence du web

À un moment donné, il était de notoriété publique qu' »Internet est éternel », ce qui signifie que tout ce que vous mettez en ligne y restera toujours. Nos recherches informelles sur Google Books et Google suggèrent que l’expression est née vers 2005 mais est devenue très populaire à l’ère du boom des réseaux sociaux de 2008-2009.

Au fil du temps, cependant, il est devenu de plus en plus clair qu’Internet est transitoire. La pourriture des liens menace chaque jour le contenu sur le Web, et le contenu trouvé en ligne est loin d’être permanent. Une étude de l’Université Harvard de 2021 a examiné les hyperliens dans plus de 550 000 articles du New York Times de 1996 à 2019 et a découvert que 25 % des liens vers des pages spécifiques étaient inaccessibles. Si ce n’était pas pour The Internet Archive, par exemple, de nombreux premiers sites Web seraient complètement perdus.

Une capture d'écran d'un article de PCWorld auquel il manque une image.
Agrandir / Une capture d’écran d’un article de PCWorld auquel il manque une image.

Ars Technica

Les causes de la pourriture des liens incluent les fermetures de sites Web, les migrations de serveurs, les changements vers de nouveaux systèmes de gestion de contenu, etc. Nous pouvons maintenant ajouter un autre coupable à la liste : l’élagage du contenu pour le référencement. C’est peut-être un autre signe de la gravité des choses avec les résultats de recherche de Google – pleins de sites indésirables générés par algorithmes – que des publications comme CNET sont poussées à de tels extrêmes pour rester au-dessus de la mer de bruit.

Même si les sites Web ne suppriment pas complètement le contenu, certaines archives peuvent être compromises au fil du temps par d’autres moyens. Au cours de la dernière décennie, un fléau de trolls du droit d’auteur a menacé de nombreuses publications de poursuites judiciaires pour avoir utilisé des images d’une manière qui constituerait probablement un usage loyal si elle était testée devant les tribunaux. Mais les procès coûtent cher, donc les trolls ont gagné en recevant des règlements en espèces. En réponse, de nombreux sites Web ont supprimé les anciennes images des articles au lieu d’en trier des millions individuellement. Les archives de certains sites Web d’IDG, tels que PCWorld et Macworld, ont été affectées par cette suppression d’images.

Heureusement, tous les sites Web ne négligent pas leurs archives ou ne tombent pas dans le piège du référencement. Par exemple, sur Ars Technica, vous pouvez toujours trouver des articles écrits il y a 25 ans (et beaucoup dans leur format d’origine), et la fonction de recherche d’Ars fonctionne toujours remarquablement bien.

Depuis des temps immémoriaux, la protection du contenu historique a nécessité de nombreuses copies sans autorisation, quelles que soient les forces culturelles ou commerciales en jeu, et cela n’a pas changé avec Internet. Les archivistes opèrent dans un univers IP parallèle, empruntant des bribes de réalité et les gardant en sécurité jusqu’à ce que les décisions commerciales à courte vue et le protectionnisme du droit d’auteur disparaissent. Espérons que, malgré la pourriture des liens, les futurs historiens pourront reconstituer une histoire précise de notre fragile ère numérique.

Source-147