Le Big Data peut ne pas connaître votre nom. Mais il sait tout le reste

Des entreprises comme Acxiom, LexisNexis et d’autres soutiennent qu’il n’y a rien à craindre de la collecte et du partage des données sensibles des Américains, tant que leurs noms et quelques autres identifiants ne sont pas joints. Après tout, selon leur raisonnement, ces données « anonymisées » ne peuvent être liées à des individus, et sont donc inoffensives.

Mais comme j’ai témoigné devant le Sénat la semaine dernière, vous pouvez essentiellement réidentifier n’importe quoi. « L’anonymat » est une abstraction. Même si une entreprise n’a pas votre nom (ce qu’elle a probablement), elle peut toujours acquérir votre adresse, votre historique de recherche sur Internet, les journaux GPS de votre smartphone et d’autres données pour vous identifier. Pourtant, ce récit imparfait et dangereux persiste et continue de persuader les législateurs, au détriment d’une réglementation stricte en matière de protection de la vie privée.

Des données sur des centaines de millions de races, de sexes, d’origines ethniques, de religions, d’orientations sexuelles, de convictions politiques, de recherches sur Internet, de prescriptions de médicaments et d’historiques de localisation GPS (pour n’en nommer que quelques-uns) sont en vente sur le marché libre, et il y a loin trop d’annonceurs, de compagnies d’assurance, de sociétés de prêt prédatrices, d’agences américaines d’application de la loi, d’escrocs et d’individus abusifs nationaux et étrangers (pour n’en nommer que quelques-uns) prêts à payer pour cela. Il n’y a pratiquement aucune réglementation du cirque de courtage de données.

De nombreux courtiers prétendent qu’il n’y a pas besoin de réglementation, car les données qu’ils achètent et vendent « ne sont pas liées à des individus » simplement parce qu’il n’y a pas, disons, une colonne « nom » dans leur feuille de calcul détaillant des millions de maladies mentales d’Américains. La société d’évaluation du crédit à la consommation Experian, par exemple, affirme que son large partage de données avec des tiers comprend des informations « non personnelles, dépersonnalisées ou anonymes ». Yodlee, le plus grand courtier de données financières aux États-Unis, a affirmé que toutes les données qu’il vend sur les Américains sont « anonymes ». Mais les entreprises affirmant qu’un tel « anonymat » protège les individus contre le mal est manifestement faux.

Il y a bien sûr une différence entre les données avec votre nom (ou votre numéro de sécurité sociale, ou un autre identifiant clair) jointes et celles sans. Cependant, la différence est faible et elle diminue continuellement à mesure que les ensembles de données deviennent de plus en plus volumineux. Pensez à un fait amusant sur vous-même : si vous partagez que les spaghettis à la carbonara sont votre plat préféré devant un auditorium de 1 000 personnes, il est fort possible que quelqu’un d’autre dans cette pièce puisse en dire autant. Il en va de même pour votre couleur préférée, votre destination de voyage ou votre candidat aux prochaines élections. Mais si vous deviez citer 50 faits amusants sur vous-même, les chances que tous ceux qui postulent à quelqu’un d’autre chutent considérablement. Quelqu’un qui a remis cette liste de 50 faits pourrait ensuite, éventuellement, retracer ce mini profil jusqu’à vous.

Cela s’applique également aux entreprises disposant d’énormes ensembles de données. Par exemple, certains grands courtiers en données comme Acxiom annoncent littéralement des milliers ou des dizaines de milliers de points de données individuels sur une personne donnée. À cette échelle (de l’orientation sexuelle et du niveau de revenu aux reçus d’achat et aux mouvements physiques dans un centre commercial, une ville ou un pays), le profil collectif de chaque individu semble unique. À cette profondeur (des recherches sur Internet aux journaux GPS des smartphones 24h/24 et 7j/7 aux doses de prescription de médicaments), de nombreux points de données uniques au sein du profil de chaque personne peuvent également être uniques. Il est bien trop facile pour ces organisations (et pour quiconque achète, octroie des licences ou vole les données) de relier tout cela à des personnes spécifiques. Les courtiers en données et d’autres sociétés créent également leurs propres données en plus d’un nom pour faire exactement cela, comme avec les identifiants publicitaires mobiles utilisés pour suivre les personnes sur les sites Web et les appareils.

La réidentification est devenue horriblement facile. En 2006, quand AOL a publié une collection de 20 millions de recherches Web de 650 000 utilisateurs, avec des noms remplacés par des nombres aléatoires, le New York Times très rapidement lié les recherches à des personnes spécifiques. (« Cela n’a pas pris grand-chose », ont écrit les journalistes.) Deux ans plus tard, les chercheurs de l’UT Austin ont comparé les cotes de films « anonymisées » de 500 000 utilisateurs de Netflix à celles d’IMDb et ont identifié les utilisateurs ainsi que « leurs préférences politiques apparentes et d’autres information sensible. » Lorsque les chercheurs ont examiné un ensemble de données du gouvernement de la ville de New York, encore une fois sans noms, de chaque trajet en taxi dans la ville, non seulement ils ont pu revenir en arrière à partir des codes de hachage mal générés pour identifier plus de 91% des taxis, ils ont pu classer également les revenus des conducteurs.

L’ironie selon laquelle les courtiers en données prétendent que leurs données « anonymisées » sont sans risque est absurde : l’ensemble de leur modèle commercial et de leur argumentaire marketing repose sur la prémisse qu’ils peuvent suivre, comprendre et microcibler de manière intime et très sélective des personnes individuelles.

Source-144