La pandémie agissant comme un accélérateur, le secteur de la santé adopte l’IA avec enthousiasme. Selon une enquête menée en 2020 par Optum, 80 % des organisations de santé ont mis en place une stratégie d’IA, tandis que 15 % prévoient d’en lancer une.
Les fournisseurs, y compris les entreprises Big Tech, se multiplient pour répondre à la demande. Google a récemment dévoilé Med-PaLM 2, un modèle d’IA conçu pour répondre aux questions médicales et trouver des informations dans les textes médicaux. Ailleurs, des startups comme Hippocratic et OpenEvidence développent des modèles pour offrir des conseils pratiques aux cliniciens sur le terrain.
Mais à mesure que de plus en plus de modèles adaptés aux cas d’utilisation médicale arrivent sur le marché, il devient de plus en plus difficile de savoir quels modèles, le cas échéant, fonctionnent comme annoncé. Étant donné que les modèles médicaux sont souvent formés avec des données provenant de contextes cliniques limités et étroits (par exemple, les hôpitaux le long de la côte Est), certains présentent des biais envers certaines populations de patients, généralement des minorités, ce qui entraîne des effets néfastes dans le monde réel.
Dans le but d’établir un moyen fiable et fiable de comparer et d’évaluer les modèles médicaux, MLCommons, le consortium d’ingénierie axé sur la création d’outils pour les mesures de l’industrie de l’IA, a conçu une nouvelle plate-forme de test appelée MedPerf. MedPerf, selon MLCommons, peut évaluer les modèles d’IA sur « diverses données médicales du monde réel » tout en protégeant la vie privée des patients.
« Notre objectif est d’utiliser l’analyse comparative comme un outil pour améliorer l’IA médicale », a déclaré Alex Karargyris, coprésident du groupe de travail médical MLCommons, qui a dirigé MedPerf, dans un communiqué de presse. « Des tests neutres et scientifiques de modèles sur des ensembles de données vastes et diversifiés peuvent améliorer l’efficacité, réduire les biais, renforcer la confiance du public et soutenir la conformité réglementaire. »
MedPerf, le résultat d’une collaboration de deux ans dirigée par le groupe de travail médical, a été construit avec la contribution de l’industrie et du milieu universitaire – plus de 20 entreprises et plus de 20 établissements universitaires ont donné leur avis, selon MLCommons. (Les membres du Medical Working Group couvrent de grands corps comme Google, Amazon, IBM et Intel ainsi que des universités telles que Brigham and Women’s Hospital, Stanford et MIT.)
Contrairement aux suites d’analyse comparative d’IA à usage général de MLCommons, comme MLPerf, MedPerf est conçu pour être utilisé par les opérateurs et les clients de modèles médicaux – les organisations de soins de santé – plutôt que par les fournisseurs. Les hôpitaux et les cliniques sur la plate-forme MedPerf peuvent évaluer les modèles d’IA à la demande, en utilisant une «évaluation fédérée» pour déployer à distance des modèles et les évaluer sur site.
MedPerf prend en charge les bibliothèques d’apprentissage automatique populaires en plus des modèles privés et des modèles disponibles uniquement via une API, comme ceux d’Epic et des services Azure OpenAI de Microsoft.
Lors d’un test du système plus tôt cette année, MedPerf a organisé le défi de segmentation tumorale fédérée (FeTS) financé par les NIH, une grande comparaison de modèles pour évaluer le traitement post-opératoire du glioblastome (une tumeur cérébrale agressive). MedPerf a pris en charge les tests de 41 modèles différents cette année, fonctionnant à la fois sur site et dans le cloud, sur 32 sites de soins de santé sur six continents.
Selon MLCommons, tous les modèles ont montré des performances réduites sur des sites avec des données démographiques de patients différentes de celles sur lesquelles ils ont été formés, révélant les biais qu’ils contiennent.
« C’est excitant de voir les résultats des études pilotes d’IA médicale de MedPerf, où tous les modèles ont fonctionné sur les systèmes de l’hôpital, en tirant parti des normes de données pré-convenues, sans partager aucune donnée », a déclaré Renato Umeton, directeur des opérations d’IA au Dana-Farber Cancer Institute et un autre coprésident du groupe de travail médical MLCommons, a déclaré dans un communiqué. « Les résultats renforcent le fait que les références par le biais d’une évaluation fédérée sont un pas dans la bonne direction vers une médecine plus inclusive basée sur l’IA. »
MLCommons considère MedPerf, qui se limite actuellement principalement à l’évaluation de modèles d’analyse de radiologie, comme une « étape fondamentale » vers sa mission d’accélérer l’IA médicale grâce à « des approches ouvertes, neutres et scientifiques ». Il appelle les chercheurs en IA à utiliser la plate-forme pour valider leurs propres modèles dans les établissements de santé et les propriétaires de données pour enregistrer les données de leurs patients afin d’augmenter la robustesse des tests de MedPerf.
Mais cet auteur se demande si – en supposant que MedPerf fonctionne comme annoncé, ce qui n’est pas une chose sûre – si la plate-forme s’attaque vraiment aux problèmes insolubles de l’IA pour les soins de santé.
Un récent rapport révélateur compilé par des chercheurs de l’Université Duke révèle un écart énorme entre le marketing de l’IA et les mois – parfois des années – de labeur qu’il faut pour que la technologie fonctionne correctement. Souvent, selon le rapport, la difficulté consiste à comprendre comment intégrer la technologie dans les routines quotidiennes des médecins et des infirmières et dans les systèmes complexes de prestation de soins et techniques qui les entourent.
Ce n’est pas un problème nouveau. En 2020, Google a publié un livre blanc étonnamment franc qui détaillait les raisons pour lesquelles son outil de dépistage de l’IA pour la rétinopathie diabétique n’a pas réussi les tests en conditions réelles. Les obstacles ne résidaient pas nécessairement aux modèles, mais plutôt à la manière dont les hôpitaux ont déployé leur équipement, à la puissance de la connectivité Internet et même à la manière dont les patients ont répondu à l’évaluation assistée par l’IA.
Sans surprise, les praticiens de la santé – et non les organisations – ont des sentiments mitigés à propos de l’IA dans les soins de santé. Un sondage réalisé par Yahoo Finance a révélé que 55 % pensent que la technologie n’est pas prête à l’emploi et seulement 26 % pensent qu’on peut lui faire confiance.
Cela ne veut pas dire que le biais du modèle médical n’est pas un vrai problème – il l’est et il a des conséquences. Des systèmes comme celui d’Epic pour identifier les cas de septicémie, par exemple, se sont avérés manquer de nombreux cas de la maladie et émettent fréquemment de fausses alarmes. Il est également vrai que l’accès à diverses données médicales à jour en dehors des référentiels gratuits pour les tests de modèles n’a pas été facile pour les organisations qui ne sont pas de la taille de, disons, Google ou Microsoft.
Mais il n’est pas judicieux d’accorder trop d’importance à une plateforme comme MedPerf lorsqu’il s’agit de la santé des personnes. Les repères ne racontent qu’une partie de l’histoire, après tout. Le déploiement en toute sécurité de modèles médicaux nécessite un audit continu et approfondi de la part des fournisseurs et de leurs clients, sans parler des chercheurs. L’absence de tels tests est tout simplement irresponsable.