ChatGPT surpasse les étudiants de premier cycle dans les cours d’introduction, mais échoue plus tard

« Depuis l’essor de grands modèles de langage comme ChatGPT, il y a eu de nombreux rapports anecdotiques sur des étudiants soumettant des travaux générés par l’IA comme devoirs d’examen et obtenant de bonnes notes. Nous avons donc testé le système d’examen de notre université contre la tricherie de l’IA dans le cadre d’une expérience contrôlée », explique Peter Scarfe, chercheur à l’École de psychologie et des sciences du langage clinique de l’Université de Reading.

Son équipe a créé plus de 30 faux comptes d’étudiants en psychologie et les a utilisés pour soumettre des réponses produites par ChatGPT-4 aux questions d’examen. Les rapports anecdotiques étaient vrais : l’utilisation de l’IA est passée largement inaperçue et, en moyenne, ChatGPT a obtenu de meilleurs résultats que les étudiants humains.

Règles d’engagement

L’équipe de Scarfe a soumis des travaux générés par l’IA dans cinq modules de premier cycle, couvrant les cours nécessaires au cours des trois années d’études pour un baccalauréat en psychologie. Les devoirs consistaient soit en des réponses de 200 mots à des questions courtes, soit en des essais plus élaborés, d’environ 1 500 mots. « Les correcteurs des examens n’étaient pas au courant de l’expérience. D’une certaine manière, les participants à l’étude ne savaient pas qu’ils participaient à l’étude, mais nous disposons des autorisations nécessaires pour poursuivre cela », affirme Scarfe.

Des soumissions plus courtes ont été préparées simplement en copiant-collant les questions d’examen dans ChatGPT-4 avec une invite pour limiter la réponse à 160 mots. Les essais ont été sollicités de la même manière, mais le nombre de mots requis a été augmenté à 2 000. En fixant les limites de cette façon, l’équipe de Scarfe pourrait amener ChatGPT-4 à produire un contenu suffisamment proche de la longueur requise. « L’idée était de soumettre ces réponses sans aucune modification, à l’exception des essais, pour lesquels nous avons appliqué un formatage minimal », explique Scarfe.

Au total, Scarfe et ses collègues ont introduit 63 soumissions générées par l’IA dans le système d’examen. Même sans aucune modification ni aucun effort pour masquer l’utilisation de l’IA, 94 % d’entre eux n’ont pas été détectés et près de 84 % ont obtenu de meilleures notes (environ une demi-note de mieux) qu’un groupe d’étudiants sélectionnés au hasard et ayant passé le même examen.

« Nous avons organisé une série de réunions de débriefing avec les correcteurs de ces examens et ils ont été très surpris », explique Scarfe. Ils ont été surpris en partie par le fait que la plupart des soumissions d’IA détectées n’ont pas été signalées parce qu’elles étaient trop répétitives ou robotiques – elles ont été signalées parce qu’elles étaient trop bonnes.

Ce qui soulève une question : que faisons-nous à ce sujet ?

Logiciel de chasse à l’IA

« Au cours de cette étude, nous avons mené de nombreuses recherches sur les techniques de détection de contenu généré par l’IA », explique Scarfe. L’un de ces outils est GPTZero d’Open AI ; d’autres incluent des systèmes de détection d’écriture par IA comme celui de Turnitin, une entreprise spécialisée dans la fourniture d’outils de détection du plagiat.

« Le problème avec ces outils est qu’ils fonctionnent généralement bien en laboratoire, mais leurs performances chutent considérablement dans le monde réel », explique Scarfe. Open AI affirme que GPTZero peut signaler un texte généré par l’IA comme étant « probablement » de l’IA dans 26 % des cas, avec un taux de faux positifs plutôt inquiétant de 9 %. Le système de Turnitin, en revanche, a été annoncé comme détectant 97 % des textes écrits par ChatGPT et GPT-3 en laboratoire avec seulement un faux positif sur cent tentatives. Mais, selon l’équipe de Scarfe, la version bêta publiée de ce système a eu des résultats bien moins bons.

Source-147