Cela a pris du temps, mais les plateformes de médias sociaux savent désormais que les gens préfèrent que leurs informations soient gardées à l’abri des regards des entreprises et des algorithmes malveillants. C’est pourquoi la nouvelle génération de sites de médias sociaux comme Threads, Mastodon et Bluesky se vantent de faire partie du « fediverse ». Ici, les données des utilisateurs sont hébergées sur des serveurs indépendants plutôt que sur un silo d’entreprise. Les plateformes utilisent ensuite des normes communes pour partager des informations en cas de besoin. Si un serveur commence à héberger trop de comptes nuisibles, d’autres serveurs peuvent choisir de le bloquer.
Ils ne sont pas les seuls à adopter cette approche. Les chercheurs en médecine pensent qu’une stratégie similaire pourrait les aider à former l’apprentissage automatique pour détecter les tendances des maladies chez les patients. Placer leurs algorithmes d’IA sur des serveurs spéciaux au sein des hôpitaux pour un « apprentissage fédéré » pourrait maintenir des normes de confidentialité élevées tout en permettant aux chercheurs de découvrir de nouvelles façons de détecter et de traiter les maladies.
« L’utilisation de l’IA est en train d’exploser dans toutes les facettes de la vie », a déclaré Ronald M. Summers du National Institutes of Health Clinical Center du Maryland, qui utilise cette méthode dans ses recherches en radiologie. « De nombreuses personnes sont intéressées par l’utilisation de l’apprentissage fédéré pour diverses applications d’analyse de données. »
Comment ça marche?
Jusqu’à présent, les chercheurs en médecine affinaient leurs algorithmes d’IA à l’aide de quelques bases de données soigneusement organisées, généralement des informations médicales anonymisées provenant de patients participant à des études cliniques.
Cependant, l’amélioration de ces modèles signifie qu’ils ont besoin d’un ensemble de données plus vaste contenant des informations réelles sur les patients. Les chercheurs pourraient regrouper les données de plusieurs hôpitaux dans une seule base de données, mais cela signifie leur demander de transmettre des informations sensibles et hautement réglementées. Envoyer des informations sur les patients en dehors du pare-feu d’un hôpital représente un risque important. Obtenir une autorisation peut donc être un processus long et juridiquement compliqué. Les lois nationales sur la protection de la vie privée et la loi RGPD de l’UE établissent des règles strictes sur le partage des informations personnelles d’un patient.
Au lieu de cela, les chercheurs en médecine envoient leur modèle d’IA aux hôpitaux afin qu’ils puissent analyser un ensemble de données tout en restant dans le pare-feu de l’hôpital.
En règle générale, les médecins identifient d’abord les patients éligibles pour une étude, sélectionnent toutes les données cliniques dont ils ont besoin pour la formation, confirment leur exactitude, puis les organisent dans une base de données locale. La base de données est ensuite placée sur un serveur de l’hôpital qui est lié au logiciel d’IA d’apprentissage fédéré. Une fois que le logiciel reçoit les instructions des chercheurs, il peut opérer la magie de l’IA, s’entraînant avec les données locales de l’hôpital pour détecter des tendances spécifiques de la maladie.
De temps en temps, ce modèle formé est ensuite renvoyé vers un serveur central, où il rejoint les modèles d’autres hôpitaux. Une méthode d’agrégation traite ces modèles formés pour mettre à jour le modèle d’origine. Par exemple, l’algorithme d’agrégation FedAvg populaire de Google prend chaque élément des paramètres des modèles formés et crée une moyenne. Chaque moyenne fait partie de la mise à jour du modèle, leur entrée dans le modèle agrégé étant pondérée proportionnellement à la taille de leur ensemble de données d’entraînement.
En d’autres termes, la manière dont ces modèles évoluent est regroupée sur le serveur central pour créer un « modèle de consensus » mis à jour. Ce modèle consensuel est ensuite renvoyé à la base de données locale de chaque hôpital pour être à nouveau formé. Le cycle se poursuit jusqu’à ce que les chercheurs jugent que le modèle consensuel final est suffisamment précis. (Un examen de ce processus est disponible.)
Cela rend les deux parties heureuses. Pour les hôpitaux, cela permet de préserver la confidentialité puisque les informations renvoyées au serveur central sont anonymes ; les informations personnelles ne traversent jamais le pare-feu de l’hôpital. Cela signifie également que l’apprentissage automatique/IA peut atteindre son plein potentiel en s’entraînant sur des données du monde réel afin que les chercheurs obtiennent des résultats moins biaisés et plus susceptibles d’être sensibles à des maladies de niche.
Au cours des dernières années, on a assisté à un essor des recherches utilisant cette méthode. Par exemple, en 2021, Summers et d’autres ont utilisé l’apprentissage fédéré pour voir s’ils pouvaient prédire le diabète à partir de tomodensitogrammes de l’abdomen.
« Nous avons constaté qu’il y avait des signatures de diabète sur le scanner [for] le pancréas qui a précédé le diagnostic de diabète jusqu’à sept ans », a déclaré Summers. «Cela nous a vraiment enthousiasmés à l’idée de pouvoir aider les patients à risque.»