À l’époque où les publications scientifiques existaient sous forme papier, les bibliothèques jouaient un rôle clé pour garantir que les connaissances ne disparaissent pas. Les exemplaires ont été distribués dans un si grand nombre de bibliothèques que toute défaillance (la faillite d’un éditeur, la fermeture d’une bibliothèque) ne nous exposerait pas au risque de perdre des informations. Mais, comme pour toute autre chose, le contenu scientifique est devenu numérique, ce qui a changé les enjeux de la préservation.
Les organisations ont conçu des systèmes qui devraient offrir des options pour préserver le matériel numérique. Mais, selon une enquête récemment publiée, de nombreux documents numériques n’apparaissent pas systématiquement dans les archives censées les conserver. Et cela nous expose au risque de perdre la recherche universitaire, y compris la science financée avec l’argent des contribuables.
Recherche de références
Le travail a été réalisé par Martin Eve, développeur chez Crossref. C’est l’organisation qui organise le système DOI, qui fournit un pointeur permanent vers les documents numériques, y compris presque toutes les publications scientifiques. Si les mises à jour sont effectuées correctement, un DOI sera toujours résolu en un document, même si ce document est déplacé vers une nouvelle URL.
Mais il permet également de gérer les documents qui disparaissent de leur emplacement prévu, comme cela pourrait arriver en cas de faillite d’un éditeur. Il existe un ensemble de ce que l’on appelle des « archives sombres » auxquelles le public n’a pas accès, mais qui devraient contenir des copies de tout ce qui a reçu un DOI. Si quelque chose ne va pas avec un DOI, cela devrait déclencher l’ouverture des archives sombres et la mise à jour du DOI pour pointer vers la copie dans l’archive sombre.
Toutefois, pour que cela fonctionne, des copies de tout ce qui est publié doivent se trouver dans les archives. Eve a donc décidé de vérifier si c’était le cas.
Grâce à la base de données Crossref, Eve a obtenu une liste de plus de 7 millions de DOI et a ensuite vérifié si les documents pouvaient être retrouvés dans les archives. Il en a inclus des plus connus, comme Internet Archive sur archive.org, ainsi que certains consacrés aux travaux universitaires, comme LOCKSS (Lots of Copies Keeps Stuff Safe) et CLOCKSS (Controlled Lots of Copies Keeps Stuff Safe).
Pas bien conservé
Les résultats n’étaient pas géniaux.
Lorsque Eve a ventilé les résultats par éditeur, moins de 1 % des 204 éditeurs avaient placé la majorité de leur contenu dans plusieurs archives. (Le seuil était de 75 pour cent de leur contenu dans trois archives ou plus.) Moins de 10 pour cent avaient placé plus de la moitié de leur contenu dans au moins deux archives. Et un bon tiers semblait ne faire aucun archivage organisé.
Au niveau des publications individuelles, moins de 60 pour cent étaient présentes dans au moins une archive, et plus d’un quart ne semblaient figurer dans aucune archive. (14 pour cent supplémentaires ont été publiés trop récemment pour avoir été archivés ou avaient des dossiers incomplets.)
La bonne nouvelle est que les grands éditeurs universitaires semblent raisonnablement doués pour ce qui est de placer des documents dans les archives ; la plupart des numéros non archivés proviennent de petits éditeurs.
Eve reconnaît que l’étude a des limites, principalement dans la mesure où il peut y avoir des archives supplémentaires qu’il n’a pas vérifiées. Il existe des archives sombres importantes auxquelles il n’a pas eu accès, ainsi que des éléments comme Sci-hub, qui viole le droit d’auteur afin de mettre à la disposition du public du matériel provenant d’éditeurs à but lucratif. Enfin, les éditeurs individuels peuvent avoir mis en place leur propre système d’archivage qui pourrait empêcher la disparition des publications.
Faut-il s’inquiéter ?
Le risque ici est qu’à terme, nous perdions l’accès à certaines recherches universitaires. Comme le dit Eve, les connaissances s’élargissent parce que nous sommes capables de nous appuyer sur une base de faits que nous pouvons retracer à travers une chaîne de références. Si nous commençons à perdre ces liens, les fondations deviennent plus fragiles. L’archivage comporte son propre ensemble de défis : cela coûte de l’argent, il doit être organisé, des moyens cohérents d’accès aux documents archivés doivent être mis en place, etc.
Mais, dans une certaine mesure, nous échouons dès le premier pas. « Un point important à souligner », écrit Eve, « est qu’il n’y a pas de consensus sur qui devrait être responsable de l’archivage des travaux scientifiques à l’ère numérique. »
Un problème quelque peu connexe est de garantir que les gens peuvent trouver le matériel archivé – le problème que les DOI ont été conçus pour résoudre. Dans de nombreux cas, les auteurs du manuscrit placent des copies dans des endroits comme arXiv/bioRxiv ou PubMed Centra du NIH (ce type d’archivage est de plus en plus exigé par les organismes de financement). Le problème ici est que les copies archivées peuvent ne pas inclure le DOI destiné à garantir sa localisation. Cela ne signifie pas qu’il ne peut pas être identifié par d’autres moyens, mais cela rend certainement la recherche du bon document beaucoup plus difficile.
En d’autres termes, ne pas pouvoir trouver un article ou être certain d’en consulter la bonne version peut être tout aussi grave que de ne pas en avoir du tout une copie.
Rien de tout cela ne veut dire que nous avons déjà perdu d’importants documents de recherche. Mais l’article d’Eve remplit une fonction précieuse en soulignant que le risque est réel. Nous sommes entrés dans une époque où les copies imprimées des revues ne sont pas pertinentes pour la plupart des universitaires, et où les revues universitaires uniquement numériques ont proliféré. Il est grand temps pour nous de mettre en place des normes claires pour garantir que les versions numériques de la recherche aient la pérennité dont ont bénéficié les travaux imprimés.
Journal of Librarianship and Scholarly Communication, 2024. DOI : 10.31274/jlsc.16288 (À propos des DOI).