Bonjour à tous!
Je relance une veille discution mais qui m'intéresse beaucoup.
Chez un client, la CNIL préconise d'anonymiser les données (nom, prénom,date de naissance) avec la fonction de hachage SHA-1 avant de les insérer en base.
La clé permettant d'identifier un unique utilisateur est le nom, prénom et date de naissance. Du coup on fait des jointures entre différentes tables sur cette clé.
Je me suis renseigné un peu mais j'ai encore quelque doute.
Une chaine de caractère donnera toujours le même résultat si j'ai bien compris, mais deux chaines de caractères différentes peuvent aussi donner le même résultat. Du coup même si les chances sont extrêmement mince, on peut se retrouver avec des doublons, nan?
La question que je me pose, c'est de savoir si la probabilité d'avoir ces doublons sont tellement faible qu'on peut y aller les yeux fermés ou bien y a-t-il des risque?? (sachant que la base va contenir à terme 1 000 000 de lignes différents)
Partager