Mercredi, deux chercheurs allemands, Sophie Jentzsch et Kristian Kersting, ont publié un article qui examine la capacité de ChatGPT-3.5 d’OpenAI à comprendre et à générer de l’humour. En particulier, ils ont découvert que les connaissances de ChatGPT sur les blagues sont assez limitées : lors d’un test, 90 % des 1 008 générations étaient les mêmes 25 blagues, ce qui les a amenés à conclure que les réponses ont probablement été apprises et mémorisées pendant la formation du modèle d’IA plutôt que d’être nouvellement généré.
Les deux chercheurs, associés à l’Institut de technologie logicielle, au Centre aérospatial allemand (DLR) et à l’Université technique de Darmstadt, ont exploré les nuances d’humour trouvées dans la version 3.5 de ChatGPT (et non la nouvelle version GPT-4) à travers une série d’expériences axées sur génération, explication et détection de blagues. Ils ont mené ces expériences en invitant ChatGPT sans avoir accès au fonctionnement interne ou à l’ensemble de données du modèle.
« Pour tester la richesse de la variété des blagues de ChatGPT, nous lui avons demandé mille fois de raconter une blague », écrivent-ils. « Toutes les réponses étaient grammaticalement correctes. Presque toutes les sorties contenaient exactement une blague. Seule l’invite ‘Connaissez-vous de bonnes blagues ?’ a provoqué plusieurs blagues, ce qui a conduit à 1 008 blagues répondues au total. De plus, la variation des invites n’a eu aucun effet notable.
Leurs résultats correspondent à notre expérience pratique lors de l’évaluation de la capacité d’humour de ChatGPT dans une fonctionnalité que nous avons écrite et comparant GPT-4 à Google Bard. De plus, dans le passé, plusieurs personnes en ligne ont remarqué que lorsqu’on leur demandait une blague, ChatGPT répondait fréquemment : « Pourquoi la tomate est-elle devenue rouge ? / Parce qu’elle a vu la vinaigrette. »
Il n’est donc pas surprenant que Jentzsch et Kersting aient trouvé que la blague « tomate » était le deuxième résultat le plus courant de GPT-3.5. Dans l’annexe du journal, ils ont répertorié les 25 blagues les plus fréquemment générées par ordre d’apparition. Ci-dessous, nous avons répertorié le top 10 avec le nombre exact d’occurrences (parmi les 1 008 générations) entre parenthèses :
Q : Pourquoi l’épouvantail a-t-il remporté un prix ? (140)
R : Parce qu’il était exceptionnel dans son domaine.Q : Pourquoi la tomate est-elle devenue rouge ? (122)
A: Parce qu’il a vu la vinaigrette.Q : Pourquoi le livre de mathématiques était-il triste ? (121)
R : Parce qu’il y avait trop de problèmes.Q : Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? (119)
R : Parce qu’ils inventent tout.Q : Pourquoi le cookie est-il allé chez le médecin ? (79)
A: Parce qu’il se sentait friable.Q : Pourquoi le vélo ne peut-il pas tenir debout tout seul ? (52)
A: Parce que c’était deux fois fatigué.Q : Pourquoi la grenouille a-t-elle appelé sa compagnie d’assurance ? (36)
A: Il a fait un saut dans sa voiture.Q : Pourquoi la poule a-t-elle traversé la cour de récréation ? (33)
A: Pour accéder à l’autre diapositive.Q : Pourquoi l’ordinateur était-il froid ? (23)
R : Parce qu’il a laissé ses fenêtres ouvertes.Q : Pourquoi le hipster s’est-il brûlé la langue ? (21)
A : Il a bu son café avant qu’il ne soit frais.
Même ainsi, un petit nombre des réponses générées étaient uniques, mais il semble que ChatGPT les ait principalement créées en mélangeant des éléments de différentes blagues qu’il connaît déjà. Les chercheurs ont découvert que les créations originales du modèle linguistique n’avaient pas toujours de sens, telles que « Pourquoi l’homme a-t-il mis son argent dans le mélangeur? Il voulait faire passer le temps. »
Lorsqu’on lui a demandé d’expliquer chacune des 25 blagues les plus fréquentes, ChatGPT a principalement fourni des explications valables selon la méthodologie des chercheurs, indiquant une « compréhension » des éléments stylistiques tels que les jeux de mots et les doubles sens. Cependant, il a lutté avec des séquences qui ne correspondaient pas aux schémas appris et ne pouvait pas dire quand une blague n’était pas drôle. Au lieu de cela, il inventerait des explications fictives mais plausibles.
Par exemple, lorsqu’on lui a demandé d’expliquer une blague absurde qu’il a générée (« Pouvez-vous expliquer pourquoi cette blague est drôle : pourquoi le cookie est-il allé à la salle de sport ? un jeu de mots. Se faire « a-cookie-dized » est un jeu de mots sur l’expression « se catégoriser », « cookie » étant remplacé par « catégoriser ». La blague est que le cookie va au gymnase pour devenir plus en forme et en bonne santé, comme s’il s’agissait d’une personne, mais cela implique également que le cookie essaie de s’intégrer dans une certaine catégorie ou un moule. »
En général, Jentzsch et Kersting ont constaté que la détection des blagues par ChatGPT était fortement influencée par la présence de « caractéristiques de surface » de blague comme la structure d’une blague, la présence de jeux de mots ou l’inclusion de jeux de mots, montrant un degré de « compréhension » des éléments d’humour.
Réagir à l’étude sur Twitterl’ingénieur d’invite de Scale AI, Riley Goodside, a imputé le manque d’humour de ChatGPT à l’apprentissage par renforcement par rétroaction humaine (RLHF), une technique qui guide la formation du modèle de langage en recueillant des commentaires humains : « L’effet le plus visible de RLHF est que le modèle suit les ordres et base Les LLM sont beaucoup plus difficiles à obtenir dans la pratique. Mais cet avantage n’est pas gratuit – vous le payez en créativité, plus ou moins.
Malgré les limites de ChatGPT dans la génération et l’explication des blagues, les chercheurs ont souligné que l’accent mis sur le contenu et la signification de l’humour indique des progrès vers une compréhension plus complète de l’humour dans les modèles linguistiques :
« Les observations de cette étude illustrent comment ChatGPT a plutôt appris un modèle de blague spécifique au lieu de pouvoir être réellement drôle », écrivent les chercheurs. « Néanmoins, dans la génération, l’explication et l’identification des blagues, l’accent de ChatGPT porte sur le contenu et le sens et pas tant sur les caractéristiques superficielles. Ces qualités peuvent être exploitées pour stimuler les applications d’humour informatique. Par rapport aux LLM précédents, cela peut être considéré comme un grand pas vers une compréhension générale de l’humour. »
Jentzsch et Kersting prévoient de continuer à étudier l’humour dans de grands modèles de langage, en évaluant spécifiquement le GPT-4 d’OpenAI à l’avenir. D’après notre expérience, ils découvriront probablement que GPT-4 aime aussi plaisanter sur les tomates.