ChatGPT teste le diagnostic des cas médicaux des enfants avec un taux d’erreur de 83 %

Agrandir / Le Dr Greg House a un meilleur taux de diagnostic précis des patients que ChatGPT.

ChatGPT n’est toujours pas House, MD.

Alors que le robot bavard d’IA s’est déjà révélé décevant dans ses tentatives de diagnostic de cas médicaux difficiles (avec un taux de précision de 39 % dans une analyse de l’année dernière), une étude publiée cette semaine dans JAMA Pediatrics suggère que la quatrième version du grand modèle de langage est particulièrement mauvaise. avec des enfants. Il avait un taux de précision de seulement 17 pour cent lors du diagnostic des cas médicaux pédiatriques.

Le faible taux de réussite suggère que les pédiatres humains ne seront pas au chômage de si tôt, au cas où cela poserait problème. Comme le disent les auteurs : «[T]Son étude souligne le rôle inestimable que joue l’expérience clinique. » Mais elle identifie également les faiblesses critiques qui ont conduit au taux d’erreur élevé de ChatGPT et les moyens de le transformer en un outil utile dans les soins cliniques. les pédiatres et autres médecins considèrent leur intégration dans les soins cliniques comme inévitable.

Le domaine médical a généralement été l’un des premiers à adopter les technologies basées sur l’IA, ce qui a entraîné des échecs notables, tels que la création de préjugés raciaux algorithmiques, ainsi que des succès, tels que l’automatisation des tâches administratives et l’aide à l’interprétation des scanners thoraciques et des images rétiniennes. Il y a aussi beaucoup de choses entre les deux. Mais le potentiel de l’IA en matière de résolution de problèmes a suscité un intérêt considérable pour son développement en un outil utile pour des diagnostics complexes – aucun génie médical excentrique, épineux et piquant n’est requis.

Dans la nouvelle étude menée par des chercheurs du Cohen Children’s Medical Center à New York, ChatGPT-4 a montré qu’il n’est pas encore prêt pour les diagnostics pédiatriques. Par rapport aux cas généraux, les cas pédiatriques nécessitent davantage de prise en compte de l’âge du patient, notent les chercheurs. Et comme tout parent le sait, il est particulièrement difficile de diagnostiquer les pathologies chez les nourrissons et les jeunes enfants lorsqu’ils ne peuvent pas identifier ou exprimer tous les symptômes qu’ils ressentent.

Pour l’étude, les chercheurs ont confronté le chatbot à 100 défis de cas pédiatriques publiés dans JAMA Pediatrics et NEJM entre 2013 et 2023. Il s’agit de cas médicaux publiés sous forme de défis ou de quiz. Les médecins qui lisent sont invités à essayer de poser le diagnostic correct d’un cas complexe ou inhabituel sur la base des informations dont disposaient les médecins traitants à l’époque. Parfois, les publications expliquent également comment les médecins traitants sont parvenus au bon diagnostic.

Correspondances manquées

Pour le test de ChatGPT, les chercheurs ont collé le texte pertinent des cas médicaux dans l’invite, puis deux médecins-chercheurs qualifiés ont évalué les réponses générées par l’IA comme correctes, incorrectes ou « n’ont pas entièrement saisi le diagnostic ». Dans ce dernier cas, ChatGPT a proposé une condition cliniquement liée qui était trop large ou peu spécifique pour être considérée comme le diagnostic correct. Par exemple, ChatGPT a diagnostiqué le cas d’un enfant comme étant causé par un kyste de la fente branchiale (une bosse dans le cou ou sous la clavicule) alors que le diagnostic correct était le syndrome branchio-oto-rénal, une maladie génétique qui provoque le développement anormal des tissus dans le du cou et des malformations des oreilles et des reins. L’un des signes de la maladie est la formation de kystes de la fente branchiale.

Dans l’ensemble, ChatGPT a obtenu la bonne réponse dans seulement 17 des 100 cas. Cette méthode était manifestement erronée dans 72 cas et ne rendait pas entièrement compte du diagnostic des 11 cas restants. Parmi les 83 diagnostics erronés, 47 (57 %) concernaient le même système organique.

Parmi les échecs, les chercheurs ont noté que ChatGPT semblait avoir du mal à repérer les relations connues entre les conditions qu’un médecin expérimenté pourrait, espérons-le, détecter. Par exemple, il n’a pas fait de lien entre l’autisme et le scorbut (carence en vitamine C) dans un cas médical. Les maladies neuropsychiatriques, telles que l’autisme, peuvent conduire à des régimes alimentaires restreints, ce qui peut entraîner des carences en vitamines. En tant que telles, les affections neuropsychiatriques constituent des facteurs de risque notables pour le développement de carences en vitamines chez les enfants vivant dans les pays à revenu élevé, et les cliniciens devraient y être attentifs. ChatGPT, quant à lui, a posé le diagnostic d’une maladie auto-immune rare.

Bien que le chatbot ait connu des difficultés lors de ce test, les chercheurs suggèrent qu’il pourrait s’améliorer en étant formé de manière spécifique et sélective sur de la littérature médicale précise et fiable, et non sur des informations disponibles sur Internet, qui peuvent inclure des informations inexactes et erronées. Ils suggèrent également que les chatbots pourraient s’améliorer avec un accès plus en temps réel aux données médicales, permettant ainsi aux modèles d’affiner leur précision, ce que l’on appelle le « réglage ».

« Cela présente une opportunité pour les chercheurs de vérifier si la formation et le réglage de données médicales spécifiques peuvent améliorer la précision du diagnostic des chatbots basés sur LLM », concluent les auteurs.

Source-147