Avant même que vous puissiez penser à créer un algorithme pour lire une radiographie ou interpréter un frottis sanguin, la machine doit savoir ce qu’il y a dans une image. Toutes les promesses de l’IA dans les soins de santé – un domaine qui a attiré 11,3 milliards de dollars d’investissements privés en 2021 – ne peuvent être réalisées sans des ensembles de données soigneusement étiquetés qui indiquent aux machines ce qu’elles recherchent exactement.
La création de ces ensembles de données étiquetés devient une industrie en soi, avec des entreprises bien au nord du statut de licorne. Aujourd’hui, Encord, une petite startup tout juste sortie de Y Combinator, cherche à prendre part à l’action. Dans le but de générer des ensembles de données étiquetés pour les projets de vision par ordinateur, Encord a lancé sa propre version bêta d’un programme d’étiquetage assisté par l’IA appelé CordVision. Le lancement fait suite à des programmes pilotes à Stanford Medicine, Memorial Sloan Kettering et Kings College London. Il a également été testé par Kheiron Medical et Viz AI.
Encord a développé un ensemble d’outils qui permettent aux radiologues de zoomer sur les images DICOM, un format universellement utilisé pour transmettre des images médicales. Et au lieu de demander à un radiologue de s’asseoir et d’annoter une image entière, le logiciel est conçu pour s’assurer que seules les parties clés de l’image sont étiquetées.
Encord a été fondée en 2020 par Eric Landau, qui a une formation en physique appliquée, et Ulrik Stig Hansen. Hansen travaillait sur un projet de thèse de maîtrise à l’Imperial College de Londres centré sur la visualisation de grands ensembles de données d’images médicales. C’est Hansen qui a d’abord remarqué à quel point il fallait du temps pour organiser des ensembles de données étiquetées.
Ces ensembles de données étiquetés sont importants car ils fournissent des «vérités de terrain» dont les algorithmes peuvent tirer des enseignements. Il existe certaines façons de construire l’IA qui ne nécessitent pas d’ensembles de données étiquetés, mais en grande partie l’IA (en particulier dans les soins de santé) s’est appuyée sur l’apprentissage supervisé, ce qui les nécessite.
Pour créer un ensemble de données étiquetées, plusieurs médecins parcourront littéralement les images une par une, dessinant des polygones autour des caractéristiques pertinentes. D’autres fois, cela peut être fait avec des outils ou des capteurs open source. Mais dans tous les cas, la littérature scientifique suggère que cette étape est un goulot d’étranglement majeur dans le monde de l’IA des soins de santé, en particulier en ce qui concerne la radiologie, qui est un domaine où l’IA devrait faire des progrès majeurs, mais n’a en grande partie pas réussi à apporter des changements de paradigme majeurs. .
« Je sais qu’il y a beaucoup de scepticisme [of AI in the medical world]. Nous pensons que les progrès sont vraiment lents », a déclaré Landau à TechCrunch. « Nous pensons que la transition vers une approche où vous pensez vraiment aux données de formation en premier lieu aidera à accélérer la progression de ces modèles. »
Comme le notent les auteurs d’un article de 2021 dans Frontiers in Radiology, il faut aux étiqueteurs humains jusqu’à 24 ans de travail pour étiqueter un ensemble de données d’environ 100 000 images. Une autre prise de position de 2021 publiée par l’Association européenne de médecine nucléaire (EANM) et l’Association européenne d’imagerie cardiovasculaire (EACVI) note que « l’obtention de données étiquetées dans l’analyse d’images médicales peut prendre du temps et être coûteuse ». Mais il souligne également que de nouvelles techniques émergent qui peuvent accélérer les choses.
Ironiquement, ces nouvelles techniques sont elles-mêmes des versions de l’intelligence artificielle. Cet article de 2021 Frontiers in Radiology, par exemple, a montré qu’en appliquant une approche d’apprentissage actif, le processus pourrait être 87 % plus rapide. Il ne faudrait que 3,2 années de travail, contre 24 ans, pour revenir à l’exemple des 100 000 images.
CordVision, essentiellement, est une version d’un processus d’apprentissage actif appelé micro-modélisation. Cette technique, en gros, fonctionne en demandant à une équipe d’étiqueter un petit échantillon représentatif des images. Ensuite, une IA spécifique est formée sur ces images, puis appliquée au pool plus large, que l’IA étiquette. Ensuite, les examinateurs humains peuvent vérifier le travail de l’IA au lieu de faire l’étiquetage à partir de zéro.
Landu le décompose bien dans un article de blog sur sa page Medium : Imaginez créer un algorithme conçu pour détecter The Batman dans les films Batman. Votre micro-modèle serait formé sur cinq images représentant le batman de Christian Bale. Un autre pourrait être entraîné à reconnaître le Batman de Ben Affleck, etc. Tous ensemble, vous construisez le plus gros algorithme en utilisant chaque petite partie, puis vous le libérez sur la série dans son ensemble.
« C’est quelque chose que nous avons trouvé qui fonctionne assez bien, car vous pouviez vous en sortir en faisant très, très peu d’annotations et en amorçant le processus », a-t-il déclaré.
Encord a publié des données pour étayer les affirmations de Landau. Par exemple, une étude menée en collaboration avec le Kings College de Londres a comparé CordVision à un programme d’étiquetage développé par Intel. Cinq étiqueteurs ont traité 25 744 images vidéo d’endoscopie. Les gastro-entérologues qui utilisaient CordVision se déplaçaient 6,4 fois plus vite.
La méthode était également efficace lorsqu’elle était appliquée à un ensemble de tests de 15 521 rayons X COVID-19. Les gens n’ont examiné que 5 % du nombre total d’images, et la précision finale d’un modèle d’étiquetage IA était de 93,7 %.
Cela dit, Enord est loin d’être la seule entreprise à avoir identifié ce goulot d’étranglement et à chercher à utiliser l’IA pour faciliter le processus d’étiquetage. Les entreprises existantes dans cet espace signalent déjà des valorisations importantes. Par exemple, Scale AI a atteint une valorisation de 7,3 milliards de dollars en 2021 et Snorkel a atteint le statut de licorne.
Le plus grand concurrent de l’entreprise, de l’aveu même de Landau, est probablement Labelbox. Labelbox comptait environ 50 clients lorsque TechCrunch les a couverts au stade de la série A. En janvier, la société a clôturé une série D de 110 millions de dollars, la plaçant à portée de main de la barre du milliard de dollars.
CordVision est encore un tout petit poisson. Mais il est pris dans un raz-de-marée d’étiquetage des données. Landau dit que l’entreprise s’attaque aux endroits qui utilisent encore des outils open source ou internes pour faire leur propre étiquetage des données.
Jusqu’à présent, la société a levé 17,1 $ en financement de démarrage et de série A depuis l’obtention de son diplôme de Y Combinator. L’entreprise est passée de ses deux fondateurs à une équipe de 20 personnes. Encord, dit Landau, ne brûle pas d’argent. La société ne cherche pas à lever de fonds pour le moment et pense que les augmentations actuelles seront suffisantes pour faire passer cet outil dans le processus de commercialisation.