Anonymisation de données - update aléatoire des coordonnées

**twixi** · 30/05/2013, 17h43

Bonjour à tous,

Je travaille actuellement sur de l'anonymisation des coordonnées personnes d'une table.

La Règle de gestion spécifie de "mélanger les nom" de chaque NOM de la table TABLE_NOM.

Pour ce faire voici la méthode que j'ai utilisée:
Étape1 : récupération des clés de la table personnes dans la table CLE_PERS_ANONYME
Étape2 : récupération de manière aléatoire le champ ID_NOM
Étape3 : mis à jour de la table

Le code que j'ai utilisé pour l'étape est le suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
DECLARE
      CURSOR c_non
      IS
        SELECT A.* FROM CLE_PERS_ANONYME A
                 WHERE EXISTS (SELECT 1 FROM TABLE_NOM B 
               WHERE A.NOM=B.NOM);
                     
    BEGIN
      FOR oneEnreg IN c_nom
      LOOP
        UPDATE CLE_PERS_ANONYME CLE_NOM
        SET  NOM =
         
          (SELECT  NOM
          FROM
            (SELECT NOM   FROM TABLE_NOM A  WHERE 
             and NOM is not null
            ORDER BY DBMS_RANDOM.VALUE
            )
          WHERE rownum = 1
          )


        WHERE CLE_NOM.id= oneEnreg.id;
        commit;
      END LOOP;
      END;
    /

Ceci marche bien pour une petite volumétrie de données ...
Cependant ayant plusieurs millions d'enregistrements à mélanger, c'est vraiment trop trop lent ...
quel est selon vous la meilleur façon d'optimiser mon code ?

J'ai essaye de passé par du SAMPLE :

le code en gras ci-dessous est remplacé par :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
          (SELECT nom
          FROM
            (SELECT TXT_NOM FROM TABLE_NOM  SAMPLE (1) where nom is not null )
          WHERE ROWNUM = 1
          )

Sauf que j'obtiens l'erreur suivante :

PL/SQL: ORA-30560: SAMPLE clause not allowed

Auriez-vous une idée s'il vous plait ?

Je vous remercie d'avance pour vos conseils avisés.

**pachot** · 30/05/2013, 22h25

Bonjour,

Les update ligne à ligne, c'est pas terrible effectivement.

Une idée:

J'ai la table TEST suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

create table TEST (id primary key,first_name unique,last_name unique)

Je crée une table identique en mélangeant les noms:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
create table SHUFFELED as 
select
id
, nvl(lead(first_name)over(partition by part order by ora_hash(first_name)),first_value(first_name)over(partition by part order by ora_hash(first_name))) first_name
, nvl(lead(last_name)over(partition by part order by ora_hash(last_name)),first_value(last_name)over(partition by part order by ora_hash(last_name))) last_name
from (
select /*+ PARALLEL(TEST 8)*/ id,first_name,last_name,ora_hash(first_name) first_name_hash,ora_hash(last_name) last_name_hash,mod(ora_hash(id),8) part from TEST
) order by 1
/

Le principe:
- on calcule un hash function pour chaque colonne (avec ora_hash )
- on va trier sur cette colonne et prendre la valeur de l'enregistrement suivant (avec lead. Le nvl et le first_value c'est pour faire un décalage circulaire... il y a peut-être mieux)
- pour profiter du parallélisme, je fais de paquets avec modulo 8

Cordialement,
Franck

Anonymisation de données - update aléatoire des coordonnées

SQL Oracle

Discussions similaires

Partager

Partager