Les données anonymisées peuvent être reconstituées à l’aide de l’apprentissage automatique selon une étude

**Bill Fassinou** · 11/10/2019, 16h32

L'anonymat en ligne : les données anonymisées peuvent être reconstituées à l’aide de l’apprentissage automatique selon les résultats d'une étude
qui remet en cause les cadres de protection de la vie privée

« Les ensembles de données anonymes peuvent être reconstitués par les personnes utilisant l'apprentissage automatique ». C’est la conclusion d’une nouvelle étude réalisée récemment par des universitaires de l’Imperial College London et de l’UCLouvain (Université catholique de Louvain). Selon eux, l'anonymisation des données personnelles ne suffit pas à protéger la vie privée sur Internet et ils s’accordent à dire que les méthodes actuelles d'anonymisation des données exposent toujours les personnes à un risque de nouvelle identification.

La collecte de données personnelles des utilisateurs d’Internet est devenue de plus en plus grandissante et les entreprises spécialisées dans le Big Data se développent mieux que jamais. De même, les gouvernements sont devenus eux aussi des acteurs incontournables dans la collecte de données afin de poursuivre des programmes d’identification comme le récent projet Alicem en France. Une fois que ces données sont collectées, elles sont anonymisées et dans le cas des entreprises de données, elles peuvent décider de les revendre à de tiers publicitaires ou autres.

La manière dont les données sont utilisées est protégée par les lois en vigueur, telles que le RGPD, entré en vigueur dans l’UE, ou la loi américaine sur la protection des consommateurs en Californie (CCPA). Ces lois décrivent des processus d'échantillonnage et d’anonymisation des données qui demandent de supprimer les caractères d'identification telles que les noms et les adresses électroniques, afin que les personnes ne puissent pas, en théorie, être identifiées. Après quoi, elles ne sont plus soumises aux lois protégeant les données.

Nom : z1.png
Affichages : 14082
Taille : 74,4 Ko

Ainsi, lorsque les données anonymisées sont rachetées par des tiers, c’est comme s’ils étaient libres d’en faire l’utilisation qu’il leur plaisait. Selon les auteurs de l’étude, c’est là que les choses deviennent dangereuses. En se basant sur les différentes expériences qu’ils ont menées, ils ont affirmé que les ensembles de données anonymisés rachetés par les entreprises tierces aux entreprises de données peuvent souvent être modifiés grâce à une ingénierie permettant d’identifier à nouveau les personnes, cela en dépit des techniques d’anonymisation.

À titre illustratif, dans l'étude, 99,98 % des Américains ont été correctement réidentifiés à partir d’un ensemble de données anonymisées disponible en utilisant seulement 15 caractéristiques, dont l'âge, le sexe et l'état matrimonial. « Alors qu'il y a peut-être beaucoup de gens dans la trentaine, de sexe masculin, qui vivent à New York, beaucoup moins d'entre eux sont nés le 5 janvier, conduisent une voiture de sport rouge et vivent avec deux enfants (deux filles) et un chien », a déclaré l’un des auteurs de l’étude, Luc Rocher de l'UCLouvain (Université catholique de Louvain).

Nom : z2.png
Affichages : 3950
Taille : 118,8 Ko

Les auteurs de l’étude ont déclaré qu’il ne suffit pas d’ajouter du bruit, d'échantillonner des ensembles de données ou d’utiliser des techniques de dépersonnalisation pour empêcher une réutilisation des données sensibles collectées chez les usagers d’Internet. Notons que l’ajout de bruit à une donnée est une technique qui consiste à noyer l’information dans la masse. Par exemple, si l'on veut anonymiser l’âge d’un patient de 22 ans, on pourrait remplacer cette information par une fourchette, telle que 18-25 ans, ce qui le rend impossible à retrouver.

Il est également possible de jouer sur les valeurs numériques et les dates en les modifiant d’un certain pourcentage. Pour se justifier, ils ont mis au point un modèle d'apprentissage automatique pour évaluer la probabilité que les caractéristiques d'un individu soient suffisamment précises pour ne décrire qu'une personne sur une population de plusieurs milliards. Ils ont également mis au point un outil en ligne, qui n'enregistre pas les données et ne sert qu'à des fins de démonstration.

L’outil en ligne permet aux gens de voir quelles caractéristiques les rendent uniques dans les ensembles de données. Il vous demande d'abord d'entrer la première partie de votre code postal (UK) ou ZIP (US), votre sexe et votre date de naissance, avant de vous donner une probabilité que votre profil puisse être réidentifié dans un jeu de données anonymes. Il vous demande ensuite votre état matrimonial, le nombre de véhicules, le statut de propriétaire et le statut d'emploi, avant de recalculer. En effet, en ajoutant plus de caractéristiques, la probabilité qu'une correspondance soit correcte augmente considérablement.

Nom : z3.png
Affichages : 4146
Taille : 144,7 Ko

« C'est une information assez standard pour les entreprises. Bien qu'ils soient liés par les lignes directrices du GDPR, ils sont libres de vendre les données à quiconque une fois qu'elles sont rendues anonymes. Nos recherches montrent à quel point il est facile et précis de retracer les individus une fois que cela s'est produit », a déclaré Yves-Alexandre de Montjoye, coauteur de l’étude. Il a souligné le fait que les entreprises et les gouvernements ont minimisé le risque de réidentification pensant que les jeux de données qu'ils vendent sont toujours incomplets.

« Nos résultats contredisent cet argument et démontrent qu'un attaquant peut facilement et avec précision estimer la probabilité que le dossier trouvé appartienne à la personne qu'il recherche », a-t-il ajouté. Les chercheurs s’accordent à dire que la réidentification des données anonymisées est le procédé par lequel les journalistes ont réussi à trouver et à exposer les déclarations de revenus de Donald Trump de 1985 à 1994 en mai 2019. Pour eux, la dépersonnalisation est loin d’être une technique suffisante pour protéger la vie privée des personnes.

« On nous assure souvent que l'anonymat protégera nos données personnelles. Notre article montre cependant que la dépersonnalisation est loin d'être suffisante pour protéger la confidentialité des données des gens », a déclaré Julien Hendrickx de l'UCLouvain, coauteur de l’étude. Pour cela, ils estiment que les décideurs politiques doivent faire davantage pour protéger les individus contre de telles attaques, qui pourraient avoir de graves répercussions sur leur carrière ainsi que sur leur vie personnelle et financière. Il faut approfondir les normes d’anonymisation.

Selon le coauteur Julien Hendrickx, il est préférable que les normes d'anonymisation soient robustes et tiennent aussi compte des nouvelles menaces comme celle démontrée dans leur étude, c’est-à-dire la montée en puissance de l’apprentissage automatique. D’après de Montjoye, le but de l'anonymisation est d'utiliser les données au profit de la société. « C'est extrêmement important, mais cela ne devrait pas et ne doit pas se faire au détriment de la vie privée des gens », a-t-il conclu.

Sources : Science Daily, l'outil de test en ligne, Rapport de l’étude

Et vous ?

Que pensez-vous des résultats de cette étude ?

Voir aussi

Tim Cook déclare que la confidentialité numérique « est devenue une crise » et demeure favorable à une réglementation gouvernementale

Facebook pense que la confidentialité sur les réseaux sociaux n'existe pas et qu'il n'y aurait pas de vie privée en ligne

Mark Zuckerberg va réorienter Facebook vers le chiffrement et la confidentialité et les gens communiqueront dorénavant en groupe restreint

Google utilise Gmail pour suivre l'historique de tous vos achats en ligne et il est difficile de le supprimer

**emilie77** · 14/10/2019, 09h20

Pourquoi laissez vous ces données aux reseaux sociaux?

**vanquish** · 15/10/2019, 09h28

Envoyé par emilie77

Pourquoi laissez vous ces données aux reseaux sociaux?

Données publique ne veux pas dire réseaux sociaux.
Comme l'indique l'article, les gouvernements collectent également beaucoup de données : actes médicaux par la sécu, revenus à travers la déclaration d’impôts, immatriculation des véhicules (lesquels, neuf ou occasions, age des ces dernières etc.)

Ces données sont à la disposition des chercheurs pour évaluer par exemple les taux de récidives de telle maladie, ou évaluer l'état du parc automobile du pays etc.
Collecte et analyse peuvent donc être très légitimes et utiles.

Mais il est en fait assez facile de dés-anonymiser certaines de ces données.

Si (par que je suis votre employeur ou votre assureur par exemple), je sais que vous avez subit tel acte médical, tel jour, dans tel département, et que je le cherche dans le big data, je ne vais pas trouver 500 dossiers. Peut-être 10. Et si j'élimine tous ceux qui ont subit un autre acte à une date où je sais que vous étiez au travail ou en vacance à l'étranger : il ne reste plus que votre dossier et j'ai ainsi accès à tout votre dossier médical.

Je ne prend pas cet exemple au hasard :

A la fin des années 90, Latanya Sweeney alors étudiante au MIT montre que la combinaison de la date de naissance, du sexe et du code postal identifie de manière unique 87% des Américains [3]. Celle-ci utilise ensuite cette information pour retrouver, dans une base de données anonymisée, le dossier médical du gouverneur du Massachusetts de l’époque, William Weld.
http://variances.eu/?p=1416

Cette étudiante à croisé les données médicales, avec l'agenda public du gouverneur, ce qui a permis de déterminer qui il pouvait être et qui il n'était pas dans la base de données : à la fin, il n'en reste qu'un (comme dirait Highlander).

Le soucis vient donc du fait que l'on pense qu'une fois anonymisé, il n'y a plus de problème à diffuser certains fichiers, mais c'est faux.
Avec l'IA, la méthode toute manuelle décrite ici peut être automatisée et désanonymiser toute une base.

**pggj_mathsimo** · 18/10/2019, 16h33

Attention, effectivement, beaucoup de systèmes confondes la pseudonymisation et l'anonymisation. Au sens de la CNIL, l'anonymisation requiert que les données soient résistantes au sens de 3 critères que sont l'individualisation, la corrélation et l'inférence.
À l'inverse, la pseudonymisation consiste a remplacer dans un lot de données les champs identifiants de façon directes, comme les nom prénom email adresse IP, etc.

La différence est fondamentale, l'anonymisation requiert souvent des compétences mathématiques particulières permettant de réduire les risques de ré-identification.

La plupart du temps, les données récoltées sont dans un premier lieu pseudonimisées, puis, dans un délai raisonnable, (généralement quelques jours maximum) anonymisées

Pour ceux qui souhaiteraient creuser plus le sujet, je conseille l'avis technique de la commission européenne recommandée par la CNIL sur le sujet : https://www.cnil.fr/sites/default/fi...s/wp216_fr.pdf

pour ceux qui seraient confrontés à cette problématique, n'hésitez pas à me contacter , je me ferai une joie de vous aider