Bien qu’apprendre des mathématiques de haut niveau ne soit pas une tâche facile, enseigner des concepts mathématiques peut souvent être tout aussi délicat. C’est peut-être pourquoi de nombreux enseignants se tournent vers ChatGPT pour obtenir de l’aide. Selon un récent article de Forbes, 51 % des enseignants interrogés ont déclaré avoir utilisé ChatGPT pour aider à enseigner, 10 % l’utilisant quotidiennement. ChatGPT peut aider à relayer des informations techniques en termes plus basiques, mais il ne fournit pas toujours la bonne solution, en particulier pour les mathématiques de niveau supérieur.
Une équipe internationale de chercheurs a testé ce que le logiciel pouvait gérer en fournissant au programme d’IA générative des questions mathématiques difficiles de niveau universitaire. Bien que ChatGPT ait échoué sur un nombre important d’entre eux, ses réponses correctes suggéraient qu’il pourrait être utile aux chercheurs et aux enseignants en mathématiques en tant que type de moteur de recherche spécialisé.
Représenter les muscles mathématiques de ChatGPT
Les médias ont tendance à dépeindre l’intelligence mathématique de ChatGPT comme brillante ou incompétente. « Seuls les extrêmes ont été soulignés », a expliqué Frieder Simon, doctorant à l’Université d’Oxford et auteur principal de l’étude. Par exemple, ChatGPT a réussi le test de QI d’intelligence verbale-linguistique de Psychology Today, marquant 147 points, mais a lamentablement échoué à l’examen CPA de Accounting Today. « Il y a un milieu [road] pour certains cas d’utilisation ; ChatGPT fonctionne plutôt bien [for some students and educators]mais pour d’autres, pas tellement », a expliqué Simon.
Au niveau des tests des cours de mathématiques du secondaire et du premier cycle, ChatGPT fonctionne bien, se classant dans le 89e centile pour le test de mathématiques SAT. Il a même reçu un B à l’examen final en informatique quantique de l’expert en technologie Scott Aaronson.
Mais différents tests peuvent être nécessaires pour révéler les limites des capacités de ChatGPT. « Une chose sur laquelle les médias se sont concentrés est la capacité de ChatGPT à réussir divers tests standardisés populaires », a déclaré Leah Henrickson, professeur de médias numériques à l’Université du Queensland. «Ce sont des tests auxquels les étudiants passent littéralement des années à se préparer. Nous sommes souvent amenés à croire que ces tests évaluent notre intelligence, mais le plus souvent, ils évaluent notre capacité à nous rappeler des faits. ChatGPT peut réussir ces tests car il peut rappeler des faits qu’il a retenus lors de sa formation.
Simon et son équipe de recherche ont proposé un ensemble unique de questions mathématiques de niveau supérieur pour évaluer si ChatGPT possédait également des compétences en matière de test et de résolution de problèmes. « [Previous studies looked at] si la sortie a été correcte ou incorrecte », a ajouté Simon. « Et nous voulions aller au-delà de cela et avons mis en place une méthodologie beaucoup plus fine où nous pouvons vraiment évaluer comment ChatGPT échoue, s’il échoue et de quelle manière il échoue. » Pour créer un système de test plus complexe, les chercheurs ont compilé des invites de plusieurs domaines dans un ensemble de problèmes plus vaste qu’ils ont appelé GHOSTS.