À mesure que les modèles d’apprentissage du langage (LLM) continuent de progresser, les questions sur la manière dont ils peuvent bénéficier à la société dans des domaines tels que le domaine médical évoluent également. Une étude récente de l’École de médecine clinique de l’Université de Cambridge a révélé que le GPT-4 d’OpenAI fonctionnait presque aussi bien dans une évaluation en ophtalmologie que les experts dans le domaine, le Temps Financier signalé pour la première fois.
Dans l’étude, publiée dans PLOS Santé numérique, les chercheurs ont testé le LLM, son prédécesseur GPT-3.5, le PaLM 2 de Google et le LLaMA de Meta avec 87 questions à choix multiples. Cinq ophtalmologistes experts, trois ophtalmologistes stagiaires et deux jeunes médecins non spécialisés ont subi le même examen blanc. Les questions provenaient d’un manuel destiné à tester les stagiaires sur tout, de la sensibilité à la lumière aux lésions. Le contenu n’est pas accessible au public, les chercheurs pensent donc que les LLM n’auraient pas pu être formés auparavant. ChatGPT, équipé de GPT-4 ou GPT-3.5, avait trois chances de répondre définitivement ou sa réponse était marquée comme nulle.
GPT-4 a obtenu des résultats supérieurs à ceux des stagiaires et des jeunes médecins, répondant correctement à 60 des 87 questions. Bien que ce chiffre soit nettement supérieur à la moyenne de 37 réponses correctes des jeunes médecins, il dépasse de peu la moyenne des trois stagiaires de 59,7. Alors qu’un ophtalmologiste expert n’a répondu avec précision qu’à 56 questions, les cinq ont obtenu un score moyen de 66,4 bonnes réponses, battant ainsi la machine. PaLM 2 a obtenu un score de 49 et GPT-3.5 un score de 42. LLaMa a obtenu le score le plus bas à 28, tombant en dessous des médecins juniors. Notamment, ces essais ont eu lieu à la mi-2023.
Bien que ces résultats présentent des avantages potentiels, ils comportent également de nombreux risques et préoccupations. Les chercheurs ont noté que l’étude proposait un nombre limité de questions, en particulier dans certaines catégories, ce qui signifie que les résultats réels pouvaient varier. Les LLM ont également tendance à « halluciner » ou à inventer des choses. C’est une chose si ce n’est pas un fait pertinent, mais prétendre qu’il y a une cataracte ou un cancer est une autre histoire. Comme c’est le cas dans de nombreux cas d’utilisation du LLM, les systèmes manquent également de nuances, créant ainsi de nouvelles possibilités d’inexactitude.