Un nouveau papier Des chercheurs de l’université suisse EPFL suggèrent qu’entre 33 % et 46 % des crowd workers distribués sur le service Mechanical Turk d’Amazon semblent avoir «triché» lors de l’exécution d’une tâche particulière qui leur a été assignée, car ils ont utilisé des outils tels que ChatGPT pour effectuer certaines des tâches. travail. Si cette pratique est répandue, cela peut s’avérer être un problème assez grave.
Mechanical Turk d’Amazon a longtemps été un refuge pour les développeurs frustrés qui veulent que le travail soit fait par des humains. En un mot, il s’agit d’une interface de programmation d’application (API) qui fournit des tâches aux humains, qui les effectuent puis renvoient les résultats. Ces tâches sont généralement du genre pour lesquelles vous souhaiteriez que les ordinateurs soient meilleurs. Selon Amazon, un exemple de telles tâches serait : « Dessiner des cadres de délimitation pour créer des ensembles de données de haute qualité pour les modèles de vision par ordinateur, où la tâche pourrait être trop ambiguë pour une solution purement mécanique et trop vaste, même pour une grande équipe d’experts humains. ”
Les scientifiques des données traitent les ensembles de données différemment selon leur origine – s’ils sont générés par des personnes ou un grand modèle de langage (LLM). Cependant, le problème ici avec Mechanical Turk est pire qu’il n’y paraît : l’IA est désormais disponible à un prix suffisamment bas pour que les chefs de produit qui choisissent d’utiliser Mechanical Turk plutôt qu’une solution générée par une machine comptent sur le fait que les humains sont meilleurs que les robots. L’empoisonnement de ce puits de données pourrait avoir de graves répercussions.
« Distinguer les LLM du texte généré par l’homme est difficile à la fois pour les modèles d’apprentissage automatique et pour les humains », ont déclaré les chercheurs. Les chercheurs ont donc créé une méthodologie pour déterminer si le contenu textuel a été créé par un humain ou une machine.
Le test consistait à demander à des travailleurs collaboratifs de condenser des résumés de recherche du New England Journal of Medicine en résumés de 100 mots. Il est à noter que c’est précisément le genre de tâche pour lesquelles les technologies d’IA génératives telles que ChatGPT sont bonnes.