Les modèles d’IA générative sont de plus en plus introduits dans les établissements de santé – dans certains cas prématurément, peut-être. Les premiers utilisateurs pensent qu’ils bénéficieront d’une efficacité accrue tout en révélant des informations qui autrement seraient manquées. Les critiques soulignent quant à elles que ces modèles présentent des défauts et des biais qui pourraient contribuer à de pires résultats en matière de santé.
Mais existe-t-il un moyen quantitatif de savoir dans quelle mesure un modèle peut être utile ou nuisible lorsqu’il est chargé de tâches telles que résumer les dossiers des patients ou répondre à des questions liées à la santé ?
Hugging Face, la startup d’IA, propose une solution dans un test de référence récemment publié appelé Open Medical-LLM. Créé en partenariat avec des chercheurs de l’Open Life Science AI à but non lucratif et du Natural Language Processing Group de l’Université d’Édimbourg, Open Medical-LLM vise à standardiser l’évaluation des performances des modèles d’IA génératifs sur une gamme de tâches liées à la médecine.
Open Medical-LLM n’est pas un de zéro référence, en soi, mais plutôt un assemblage d’ensembles de tests existants – MedQA, PubMedQA, MedMCQA, etc. – conçus pour sonder des modèles de connaissances médicales générales et de domaines connexes, tels que l’anatomie, la pharmacologie, la génétique et la pratique clinique. Le benchmark contient des questions à choix multiples et ouvertes qui nécessitent un raisonnement et une compréhension médicale, s’appuyant sur du matériel comprenant des examens de licence médicale américains et indiens et des banques de questions de tests de biologie universitaires.
« [Open Medical-LLM] permet aux chercheurs et aux praticiens d’identifier les forces et les faiblesses des différentes approches, de conduire de nouveaux progrès dans le domaine et, en fin de compte, de contribuer à de meilleurs soins et résultats pour les patients », a écrit Hugging Face dans un article de blog.
Hugging Face positionne la référence comme une « évaluation robuste » des modèles d’IA générative liés aux soins de santé. Mais certains experts médicaux sur les réseaux sociaux ont mis en garde contre une trop grande importance accordée à Open Medical-LLM, de peur que cela ne conduise à des déploiements mal informés.
Sur X, Liam McCoy, médecin résident en neurologie à l’Université de l’Alberta, a souligné que l’écart entre « l’environnement artificiel » des réponses aux questions médicales et réel la pratique clinique peut être assez vaste.
Clémentine Fourrier, chercheuse chez Hugging Face et co-auteur du billet de blog, est d’accord.
« Ces classements ne doivent être utilisés qu’en première approximation de ce qui [generative AI model] à explorer pour un cas d’utilisation donné, mais une phase de test plus approfondie est toujours nécessaire pour examiner les limites et la pertinence du modèle dans des conditions réelles, » Fourrier a répondu sur X. « Médical [models] ne doivent absolument pas être utilisés seuls par les patients, mais doivent plutôt être formés pour devenir des outils d’accompagnement pour les médecins.
Cela rappelle l’expérience de Google lorsqu’il a tenté d’apporter un outil de dépistage de la rétinopathie diabétique par IA aux systèmes de santé thaïlandais.
Google a créé un système d’apprentissage profond qui analyse des images de l’œil, à la recherche de preuves de rétinopathie, l’une des principales causes de perte de vision. Mais malgré une précision théorique élevée, l’outil s’est révélé peu pratique dans les tests réels, frustrant à la fois les patients et les infirmières avec des résultats incohérents et un manque général d’harmonie avec les pratiques sur le terrain.
Il est révélateur que sur les 139 dispositifs médicaux liés à l’IA approuvés à ce jour par la Food and Drug Administration des États-Unis, aucun n’utilise l’IA générative. Il est exceptionnellement difficile de tester comment les performances d’un outil d’IA générative en laboratoire se traduiront dans les hôpitaux et les cliniques externes et, peut-être plus important encore, comment les résultats pourraient évoluer au fil du temps.
Cela ne veut pas dire qu’Open Medical-LLM n’est pas utile ou informatif. Le classement des résultats, à tout le moins, nous rappelle à quel point pauvrement les modèles répondent à des questions de santé de base. Mais Open Medical-LLM, et aucune autre référence d’ailleurs, ne remplace des tests soigneusement réfléchis dans le monde réel.