IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Expert éminent sénior

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Avril 2018
    Messages
    1 548
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Côte d'Ivoire

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2018
    Messages : 1 548
    Points : 125 223
    Points
    125 223
    Par défaut Vous êtes très facile à retrouver grâce à un algorithme, même lorsque vos données ont été « anonymisées »
    Vous êtes très facile à retrouver grâce à un algorithme,
    Même lorsque vos données ont été « anonymisées », selon un nouveau rapport

    Les organismes qui traitent des données sensibles ont principalement recours à des pratiques de l’anonymisation pour les partager ou les vendre. En théorie, ces techniques, appelées dé-identification, rendent les individus non identifiables. Une fois rendues anonymes, les données ne sont plus considérées comme des données personnelles et échappent aux régimes de protection des données. Mais ces données demeurent-elles non identifiables pour le reste du temps avec les techniques actuelles ? La réponse c’est non, d’après les nouvelles recherches publiées dans la revue Nature Communications.

    En effet, des scientifiques de l'Imperial College de Londres et de l'Université Catholique de Louvain, en Belgique ont développé un algorithme de « machine learning » qui prouve qu’il est possible de ré-identifier précisément et facilement les individus au sein de n'importe quelle base de données, même lorsque vos données personnelles ont été supprimées, ont indiqué les responsables de l’université mardi dans un communiqué. Ce qui est encore plus surprenant, c’est que les scientifiques ont affiché le code de leur logiciel en ligne pour que n'importe qui puisse l'utiliser.

    Nom : An04.jpg
Affichages : 10100
Taille : 30,5 Ko

    Plus l’évolution technologique vous oblige à vous connectés, davantage vous laissez vos données en ligne chaque fois que vous faites une opération, comme commander un repas à emporter, la réservation d’une chambre d’hôtel lors d’un voyage. Mais surtout lorsque les données sensibles comme vos diagnostics médicaux ou votre dossier fiscal se retrouvent en ligne. Cependant, vous ne devriez pas vous inquiéter, car les données d'identification personnelle ont été supprimées, rendant ainsi vos informations « anonymes ».

    La pratique actuelle consiste à éliminer les éléments manifestement identifiables tels que les noms, les numéros de téléphone, les adresses électroniques, etc. Les ensembles de données sont également modifiés pour être moins précis, les colonnes des feuilles de calcul sont supprimées et le « bruit » est introduit dans les données, a rapporté MIT Technology Review dans un article publié mardi.

    Les politiques de protection de la vie privée nous assurent que cela signifie qu'il n'y a aucun risque que nous puissions être retracés dans la base de données de sorte que dans la plupart des pays du monde, les données anonymes ne sont pas considérées comme des données personnelles, c’est-à-dire, que l'information peut être partagée et vendue sans enfreindre les lois sur la vie privée, selon The New York Times. Les études de marché sont prêtes à payer les courtiers pour un large éventail de données, allant des préférences de datation aux tendances politiques, en passant par les achats des ménages et la diffusion en continu des données favorites.

    Cependant, la nouvelle étude suggère que les données « anonymisées » avec les pratiques actuelles sont loin d'être anonymes. Les chercheurs de ces deux universités ont créé un modèle d'apprentissage machine qui estime exactement à quel point il est facile de ré-identifier des individus à partir d'un ensemble de données anonymisées. Ils ont rapporté dans la revue Nature Communications que leur modèle est capable d'identifier 99,98 % des Américains à partir de presque tous les ensembles de données disponibles avec aussi peu que 15 caractéristiques, comme le sexe, le code postal ou l'état civil.

    « Au fur et à mesure que l'information s'accumule, les chances que ce ne soit pas vous diminuent très rapidement », a expliqué Yves-Alexandre de Montjoye, chercheur à l'Imperial College de Londres et un des auteurs de l'étude.

    Pour parvenir à leur conclusion, les chercheurs ont rassemblé une base de données de 210 ensembles de données différents provenant de cinq sources, dont le recensement américain. Ils ont ensuite introduit ces données dans leur modèle d'apprentissage machine, qui a appris quelles combinaisons sont plus ou moins uniques et lesquelles le sont moins. Et enfin, le modèle attribue la probabilité d'une identification correcte.

    Mais ce qui est encore plus surprenant, c’est la décision des scientifiques de publier le code de leur logiciel en ligne pour que n'importe qui puisse y accéder. Habituellement, lorsque les scientifiques découvrent une faille de sécurité, ils alertent le fournisseur ou l'organisme gouvernemental qui héberge les données. Mais ils n’ont pas procédé ainsi, car il y a de nombreuses données anonymes circulent dans le monde entier, et toutes sont en danger, a dit le Dr de Montjoye.

    Selon le chercheur, la décision de la divulgation du code a été difficile à prendre. Il s'agissait donc de choisir entre garder ou publier la méthode afin que les fournisseurs de données puissent sécuriser les futurs ensembles de données et empêcher la ré-identification des individus.

    « C'est très difficile », a dit le Dr de Montjoye. « Tu dois croiser les doigts que tu l'as bien fait, parce qu'une fois qu'il est là, tu ne le récupéreras jamais ».
    Ce n’est la première étude qui montre à quel point il est facile de retrouver des individus à partir de bases de données anonymes. Selon The News York Times, en 2016, des individus ont été identifiés à partir de l'historique de navigation de trois millions d'Allemands, données qui avaient été achetées avec un fournisseur. Aussi, les généticiens ont déjà montré que les individus peuvent être identifiés dans des bases de données génétiques supposées anonymes.

    Ces preuves montrent que toutes les pratiques d'anonymisation actuelles ont pris du retard par rapport à notre capacité à les briser

    Selon The Times, parmi les moyens habituels de protection de la vie privée, il y a la « dé-identification » des personnes en supprimant des attributs ou en substituant de fausses valeurs, ou en ne divulguant que des fractions d'un ensemble de données rendues anonymes. Mais, d’après Dr de Montjoye, le fait que l'ensemble de données soit incomplet ne protège pas la vie privée des gens. Selon lui, les preuves recueillies jusqu’à présent montrent que toutes les méthodes actuelles sont inadéquates et ont surtout pris du retard par rapport à notre capacité à les briser. « Nous devons aller au-delà de la dé-identification », a-t-il dit, avant d’ajouter que « L'anonymat n'est pas une propriété d'un ensemble de données, mais une propriété de la façon dont vous l'utilisez ».

    Nom : An02.jpg
Affichages : 7265
Taille : 42,6 Ko

    MIT Technology Review a rapporté que ces méthodes pourraient, par ailleurs, être utilisées à de mauvaises fins. Par exemple, quelqu'un qui cherche à commettre une fraude d'identité ou à obtenir des renseignements à des fins de chantage pourrait se servir de ces moyens.

    « Le problème, c'est que nous pensons que lorsque les données ont été rendues anonymes, elles sont sûres. Les organisations et les entreprises nous disent que c'est sans danger, ce qui prouve que ce n'est pas le cas », a dit Dr de Montjoye.

    Toutefois, selon The Times, l'équilibre est délicat en la matière, car l'information qui devient totalement anonyme devient également moins utile, en particulier pour les scientifiques qui tentent de reproduire les résultats d'autres études. Mais chaque petite partie qui est conservée dans une base de données rend l'identification des individus plus possible.

    Des solutions pour empêcher la re-identification des personnes

    Entre autres solutions proposées, il y a le contrôle d’accès aux données sensibles, telles que les dossiers médicaux. Les personnes habilitées devraient accéder à ces données dans une salle sécurisée. Les données peuvent être utilisées mais pas copiées, et tout ce qui est fait avec l'information doit être enregistré, a rapporté The Times. Kamel Gadouche, directeur général d'un centre de données de recherche en France, le CASD, a expliqué que les chercheurs peuvent également accéder à l'information à distance, mais « il y a des exigences très strictes pour la salle où le point d'accès est installé ».

    Selon M. Gadouche, le CASD détient des informations sur 66 millions de personnes, y compris des données fiscales et médicales, fournies par les gouvernements et les universités. « Nous ne restreignons pas l'accès », a dit le directeur du centre. « Nous contrôlons l'accès ».

    Mais il y a des inconvénients de la méthode du contrôle de l'accès aux données. A titre d’exemple, si un scientifique soumet un article de recherche à une revue, d'autres scientifiques pourraient vouloir confirmer les résultats en utilisant les données d’origine. Mais si l’accès est soumis à un contrôle, la confirmation des résultats sera un véritable défi.

    Une autre solution a été rapporté par MIT Technologie Review. Selon Charlie Cabot, directeur de recherche chez Privitar, une firme d'ingénierie en protection de la vie privée, la méthode consiste pour les organisations à utiliser la protection différentielle de la vie privée, un modèle mathématique complexe qui permet aux organisations de partager des données agrégées sur les habitudes des utilisateurs tout en protégeant l'identité d'une personne.

    Selon MIT Technologie Review, la technique subira pour la première fois un test majeur l'année prochaine. Elle est déjà utilisée pour sécuriser la base de données du recensement américain, a rapporté le magazine. Mais les organisations rendront-elles vraiment les données personnelles totalement anonymes si en le faisant elles deviennent moins utiles ?

    Source : Nature Communication, MIT Technologie Review

    Et vous ?

    Que pensez-vous de cette étude ?
    Pensiez-vous que les données « anonymisées » ont toujours été totalement anonymes ?
    Pensez-vous que les organisations rendront les données personnelles totalement anonymes si cela réduit leur utilité ?

    Lire aussi

    21 trucs et astuces pour vous aider à rester anonymes, durant vos activités en ligne
    Uber met à la disposition des municipalités sa plateforme web Uber Movement, des données gratuites anonymisées pour les aider dans leurs décisions
    Le projet de partage des données entre des hôpitaux américains et Facebook pour mieux soigner les patients, est mis sur pause à cause du scandale CA
    Les entreprises utilisent la géolocalisation de smartphone pour aider les annonceurs. Elles assurent que les données sont anonymes, est-ce le cas ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Expert éminent
    Avatar de transgohan
    Homme Profil pro
    Développeur Temps réel Embarqué
    Inscrit en
    Janvier 2011
    Messages
    3 146
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Temps réel Embarqué

    Informations forums :
    Inscription : Janvier 2011
    Messages : 3 146
    Points : 9 386
    Points
    9 386
    Par défaut
    Je comprends surtout que des données d'identification n'ont pas été supprimées pour ma part.
    Le code postal, pourquoi est-il toujours présent ?
    La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse. Si on trouve des données médicales d'un patient atteint d'une maladie rare dans cette commune c'est un peu le jackpot pour l'identifier...

    « Toujours se souvenir que la majorité des ennuis viennent de l'espace occupé entre la chaise et l'écran de l'ordinateur. »
    « Le watchdog aboie, les tests passent »

  3. #3
    Expert éminent sénior
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    6 803
    Détails du profil
    Informations personnelles :
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations forums :
    Inscription : Décembre 2007
    Messages : 6 803
    Points : 32 060
    Points
    32 060
    Par défaut
    après, ça suppose que les gens voulant vous identifier ont à leur disposition tous ces moyens. Si je suis anonyme sur internet pour échapper à mon ex qui a juré de me pourrir la vie, ça suffira largement. Face à de grosses organisations(état, GAFAM...), l'anonymat n'existe plus, en effet.
    Les 4 règles d'airain du développement informatique sont, d'après Michael C. Kasten :
    1)on ne peut pas établir un chiffrage tant qu'on a pas finalisé la conception
    2)on ne peut pas finaliser la conception tant qu'on a pas complètement compris toutes les exigences
    3)le temps de comprendre toutes les exigences, le projet est terminé
    4)le temps de terminer le projet, les exigences ont changé
    Et le serment de non-allégiance :
    Je promets de n’exclure aucune idée sur la base de sa source mais de donner toute la considération nécessaire aux idées de toutes les écoles ou lignes de pensées afin de trouver celle qui est la mieux adaptée à une situation donnée.

  4. #4
    Membre confirmé
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Juillet 2018
    Messages
    120
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Russie

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2018
    Messages : 120
    Points : 599
    Points
    599
    Par défaut
    Ces pratiques sont-elles RGPD friendly ?
    Vivement que la loi de Castaner sur l’identité numérique soit adoptée, ça sera encore plus facile de retrouver les gens

  5. #5
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 587
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 587
    Points : 18 489
    Points
    18 489
    Par défaut
    Citation Envoyé par transgohan Voir le message
    La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse.
    Mais pas du tout !
    Là ya une liste de commune avec moins de 10 habitants :
    Liste des communes de France les moins peuplées

    Les villages sont des communes de moins de 2000 habitants.
    Entre “ville” et “village”, où passe la frontière ?
    Il existe effectivement un seuil défini par les démographes, en France, pour déterminer ce qui relève du rural et de l’urbain, qu’ils ont fixé à 2 000 âmes : jusqu’à 1 999, une agglomération est un village et ses habitants sont des ruraux, des villageois. A partir de 2 000 âmes, nous avons affaire à une ville et nous glissons dans l’urbanité (notre censeur doit vivre dans un village, car il fait preuve de peu d’urbanité).
    Et en parlant de données d'utilisateur ça me fait penser à ça :
    Facebook et Google surveillent le porno que vous regardez, même lorsque vous êtes en navigation privée
    Facebook, Google et Oracle analysent le porno que vous regardez, selon une nouvelle étude citée par le New York Times. Des chercheurs de Microsoft, de Carnegie Mellon et de l'Université de Pennsylvanie ont analysé 22 484 sites pornographiques à l'aide d'un outil appelé webXray qui leur permet de suivre les données transmises à des tierces parties."Nos résultats indiquent que le tracking est une pratique courante sur les sites pornographiques : 93 % des pages divulguent des données d'utilisateurs à un tiers", conclut l'étude.
    Keith Flint 1969 - 2019

  6. #6
    Expert éminent
    Avatar de transgohan
    Homme Profil pro
    Développeur Temps réel Embarqué
    Inscrit en
    Janvier 2011
    Messages
    3 146
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Temps réel Embarqué

    Informations forums :
    Inscription : Janvier 2011
    Messages : 3 146
    Points : 9 386
    Points
    9 386
    Par défaut
    Citation Envoyé par Ryu2000 Voir le message
    Mais pas du tout !
    Là ya une liste de commune avec moins de 10 habitants :
    Liste des communes de France les moins peuplées
    C'était le cas en 2015, mais là j'en ai pris 3 au hasard dans la liste et ces villages ont été rattachés à des communes avoisinantes pour utiliser un seul et même code postal.
    De ce fait cette page n'est pas du tout à jour à mon avis.

    « Toujours se souvenir que la majorité des ennuis viennent de l'espace occupé entre la chaise et l'écran de l'ordinateur. »
    « Le watchdog aboie, les tests passent »

  7. #7
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 587
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 587
    Points : 18 489
    Points
    18 489
    Par défaut
    Citation Envoyé par transgohan Voir le message
    mais là j'en ai pris 3 au hasard dans la liste et ces villages ont été rattachés à des communes avoisinantes pour utiliser un seul et même code postal.
    Je connais des codes postaux qui correspondent à des villages de moins de 1000 habitants.

    Mais en effet je vois que parfois plein de communes partagent le même code postale :
    Liste des codes postaux de France classées par département

    Apparemment ça fonctionne avec : 18510, 63770, 63940, 63950, 30111, 30121, 30122, 30125, 30720, etc.
    Keith Flint 1969 - 2019

  8. #8
    Inactif  


    Homme Profil pro
    Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Inscrit en
    Décembre 2011
    Messages
    9 012
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Loire (Rhône Alpes)

    Informations professionnelles :
    Activité : Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2011
    Messages : 9 012
    Points : 23 211
    Points
    23 211
    Par défaut
    Cela ressemble plus à des données pseudonomysées, qu'à des données anonymisées.

  9. #9
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2010
    Messages
    55
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2010
    Messages : 55
    Points : 103
    Points
    103
    Par défaut Petites communes
    transgohan écrit
    « La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse »
    Beaucoup moins que ça :
    https://www.commune-mairie.fr/les-10...les-de-france/

    Alors, pour ces communes d'au plus 20 habitants, si vous avez juste une petite information supplémentaire concernant une personne, je gage qu'il est facile de l'identifier.

Discussions similaires

  1. algorithme trés facile
    Par Zac EFRON dans le forum Algorithmes et structures de données
    Réponses: 8
    Dernier message: 07/11/2008, 17h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo