Jusqu’à présent, même les entreprises d’IA ont eu du mal à mettre au point des outils capables de détecter de manière fiable quand un texte a été généré à l’aide d’un grand modèle linguistique. Aujourd’hui, un groupe de chercheurs a mis au point une nouvelle méthode pour estimer l’utilisation du LLM dans un grand ensemble d’écrits scientifiques en mesurant quels « mots en excès » ont commencé à apparaître beaucoup plus fréquemment pendant l’ère du LLM (c’est-à-dire en 2023 et 2024). Les résultats « suggèrent qu’au moins 10 % des résumés de 2024 ont été traités avec des LLM », selon les chercheurs. Dans un article préliminaire publié plus tôt ce mois-ci, quatre chercheurs de l’université allemande de Tübingen et de l’université Northwestern ont déclaré qu’ils s’étaient inspirés d’études qui ont mesuré l’impact de la pandémie de COVID-19 en examinant les décès excédentaires par rapport au passé récent. En examinant de manière similaire « l’utilisation excessive de mots » après que les outils de rédaction LLM sont devenus largement disponibles fin 2022, les chercheurs ont constaté que « l’apparition des LLM a conduit à une augmentation brutale de la fréquence de certains mots de style » qui était « sans précédent tant en qualité qu’en quantité ».
Plonger dans
Pour mesurer ces changements de vocabulaire, les chercheurs ont analysé 14 millions de résumés d’articles publiés sur PubMed entre 2010 et 2024, en suivant la fréquence relative de chaque mot tel qu’il apparaissait chaque année. Ils ont ensuite comparé la fréquence attendue de ces mots (sur la base de la tendance d’avant 2023) à la fréquence réelle de ces mots dans les résumés de 2023 et 2024, lorsque les LLM étaient largement utilisés.
Les résultats ont révélé un certain nombre de mots qui étaient extrêmement rares dans ces résumés scientifiques avant 2023 et qui ont soudainement gagné en popularité après l’introduction des LLM. Le mot « delves », par exemple, apparaît dans 25 fois plus d’articles en 2024 que ce que la tendance pré-LLM aurait attendu ; des mots comme « showcase » et « underscores » ont également été multipliés par neuf. D’autres mots auparavant courants sont devenus nettement plus courants dans les résumés post-LLM : la fréquence de « potential » a augmenté de 4,1 points de pourcentage, celle de « findings » de 2,7 points de pourcentage et celle de « crucial » de 2,6 points de pourcentage, par exemple.
Ces changements dans l’utilisation des mots peuvent bien sûr se produire indépendamment de l’utilisation du LLM, l’évolution naturelle de la langue signifie que les mots entrent et sortent parfois de mode. Cependant, les chercheurs ont constaté qu’avant le LLM, de telles augmentations massives et soudaines d’une année sur l’autre n’étaient observées que pour les mots liés aux grands événements sanitaires mondiaux : « Ebola » en 2015 ; « Zika » en 2017 ; et des mots comme « coronavirus », « confinement » et « pandémie » au cours de la période 2020-2022.
Cependant, après le LLM, les chercheurs ont trouvé des centaines de mots dont l’usage scientifique a augmenté de façon soudaine et prononcée, mais qui n’avaient aucun lien avec les événements mondiaux. En fait, alors que les mots en excès pendant la pandémie de COVID étaient en grande majorité des noms, les chercheurs ont découvert que les mots dont la fréquence a augmenté après le LLM étaient en grande majorité des « mots de style » comme les verbes, les adjectifs et les adverbes (un petit échantillon : « across, additional, Comprehensive, crucial, enhancement, exposed, insights, especially, especially, within »).
Ce n’est pas une découverte totalement nouvelle – la prévalence accrue du « delve » dans les articles scientifiques a par exemple été largement constatée ces derniers temps. Mais les études précédentes s’appuyaient généralement sur des comparaisons avec des échantillons d’écriture humaine « vérifiables » ou des listes de marqueurs LLM prédéfinis obtenus en dehors de l’étude. Ici, l’ensemble de résumés antérieurs à 2023 agit comme son propre groupe de contrôle effectif pour montrer comment le choix du vocabulaire a globalement changé dans l’ère post-LLM.
Une interaction complexe
En mettant en évidence des centaines de « mots marqueurs » qui sont devenus beaucoup plus courants après le LLM, les signes révélateurs de l’utilisation du LLM peuvent parfois être faciles à repérer. Prenons cet exemple de ligne abstraite citée par les chercheurs, avec les mots marqueurs mis en évidence : « A complet compréhension de la interaction complexe entre […] et […] est pivot pour des stratégies thérapeutiques efficaces.
Après avoir effectué quelques mesures statistiques de l’apparition de mots-clés dans des articles individuels, les chercheurs estiment qu’au moins 10 % des articles publiés après 2022 dans le corpus PubMed ont été rédigés avec au moins une certaine assistance LLM. Ce chiffre pourrait être encore plus élevé, affirment les chercheurs, car leur ensemble pourrait manquer de résumés assistés par LLM qui n’incluent aucun des mots-clés qu’ils ont identifiés.
Ces pourcentages mesurés peuvent également varier considérablement selon les différents sous-ensembles d’articles. Les chercheurs ont constaté que les articles rédigés dans des pays comme la Chine, la Corée du Sud et Taiwan présentaient des mots marqueurs LLM dans 15 % des cas, ce qui suggère que « les LLM pourraient… aider les non-natifs à éditer des textes anglais, ce qui pourrait justifier leur utilisation intensive ». D’un autre côté, les chercheurs estiment que les locuteurs natifs anglais « peuvent [just] « être plus apte à remarquer et à supprimer activement les mots de style non naturel des résultats LLM », cachant ainsi leur utilisation LLM à ce type d’analyse.
Détecter l’utilisation des LLM est important, notent les chercheurs, car « les LLM sont connus pour inventer des références, fournir des résumés inexacts et faire de fausses déclarations qui semblent fiables et convaincantes ». Mais à mesure que la connaissance des mots-clés révélateurs des LLM commence à se répandre, les éditeurs humains pourraient devenir plus efficaces pour supprimer ces mots du texte généré avant qu’il ne soit partagé avec le monde.
Qui sait, peut-être que les futurs grands modèles linguistiques effectueront eux-mêmes ce type d’analyse de fréquence, en diminuant le poids des mots marqueurs pour mieux masquer leurs résultats comme étant de type humain. D’ici peu, nous devrons peut-être faire appel à des Blade Runners pour repérer le texte génératif de l’IA qui se cache parmi nous.