Mettre en œuvre une confidentialité différentielle pour renforcer le partage de données et la coopération

Traditionnellement, les entreprises ont se sont appuyés sur le masquage des données, parfois appelé anonymisation, pour protéger la confidentialité des données. L’idée de base est de supprimer toutes les informations personnellement identifiables (PII) de chaque enregistrement. Cependant, un certain nombre d’incidents très médiatisés ont montré que même des données soi-disant anonymisées peuvent porter atteinte à la vie privée des consommateurs.

En 1996, un chercheur du MIT a identifié les dossiers de santé du gouverneur du Massachusetts de l’époque dans un ensemble de données soi-disant masqué en faisant correspondre les dossiers de santé avec les données d’inscription des électeurs. En 2006, des chercheurs de l’UT Austin ont réidentifié des films regardés par des milliers d’individus dans un ensemble de données soi-disant anonyme que Netflix avait rendu public en le combinant avec des données d’IMDB.

Dans un article de Nature de 2022, des chercheurs ont utilisé l’IA pour prendre les empreintes digitales et ré-identifier plus de la moitié des enregistrements de téléphones portables dans un ensemble de données soi-disant anonyme. Ces exemples mettent tous en évidence la façon dont les informations « secondaires » peuvent être exploitées par les attaquants pour ré-identifier les données supposées masquées.

Ces échecs ont conduit à une confidentialité différentielle. Au lieu de partager des données, les entreprises partageraient des résultats de traitement de données combinés à du bruit aléatoire. Le niveau de bruit est défini de manière à ce que la sortie ne dise rien de significatif à un attaquant potentiel sur une cible : la même sortie peut provenir d’une base de données avec la cible ou de la même base de données mais sans la cible. Les résultats du traitement des données partagées ne divulguent aucune information sur qui que ce soit, préservant ainsi la vie privée de chacun.

Pour mettre en œuvre la confidentialité différentielle, il ne faut pas partir de zéro, car toute erreur de mise en œuvre pourrait être catastrophique pour les garanties de confidentialité.

L’opérationnalisation de la confidentialité différentielle était un défi important au début. Les premières applications provenaient principalement d’organisations dotées de grandes équipes de science des données et d’ingénierie comme Apple, Google ou Microsoft. À mesure que la technologie gagne en maturité et que son coût diminue, comment toutes les organisations dotées d’infrastructures de données modernes peuvent-elles tirer parti de la confidentialité différentielle dans les applications réelles ?

La confidentialité différentielle s’applique à la fois aux agrégats et aux données au niveau des lignes

Lorsque l’analyste ne peut pas accéder aux données, il est courant d’utiliser la confidentialité différentielle pour produire des agrégats différentiellement privés. Les données sensibles sont accessibles via une API qui ne produit que des résultats bruyants préservant la confidentialité. Cette API peut effectuer des agrégations sur l’ensemble de données, des simples requêtes SQL aux tâches complexes d’apprentissage automatique.

Une configuration typique pour tirer parti des données personnelles avec des garanties de confidentialité différentielles. Crédits image : Sarus

L’un des inconvénients de cette configuration est que, contrairement aux techniques de masquage des données, les analystes ne voient plus les enregistrements individuels pour « avoir une idée des données ». Une façon d’atténuer cette limitation consiste à fournir des données synthétiques différentiellement privées où le propriétaire des données produit de fausses données qui imitent les propriétés statistiques de l’ensemble de données d’origine.

Source-146