supprimer les doublons après la mise à jour

**kartalo** · 20/08/2019, 16h50

bonjour tout le monde, j'ai une problématique à vous poser :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
data test2;
  input id $ region $ departement $ quartier $ commune $;
  cards;
10 25 NULL NULL NULL
10 NULL 27 NULL NULL
10 NULL NULL 13 20
111 94 NULL NULL NULL
113 27 NULL NULL NULL
113 NULL 25 NULL NULL
113 NULL NULL 30 NULL
113 70 NULL NULL NULL
113 NULL NULL NULL 100
;
run;

je veux supprimer les doublons mais avant de le faire j'aimerais bien mettre à jour les valeurs NULL de même id
exemple pour id =10 j'aurai la ligne 10 27 13 20

j'aurais comme résultat ce tableau

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
10 25 27 13 20
111 94 NULL NULL NULL
113 70 25 30 100

je vous remercie d'avance

**mgdondon** · 20/08/2019, 18h20

Bonjour,

Êtes-vous sûr de ce que vous voulez faire ? Une de vos collègues a posé une question sur le même jeu de données ici.

Votre demande n'est pas suffisamment précise. Comment choisissez-vous entre la région 27 et la région 70 pour l'id 113 ?

En supposant que vous vouliez le maximum, vous pouvez utiliser la proc univariate :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
data test2;
  input id region departement quartier commune;
  cards;
10 25 . . .
10 . 27 . .
10 . . 13 20
111 94 . . .
113 27 . . .
113 . 25 . .
113 . . 30 .
113 70 . . .
113 . . . 100
;
run;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
proc univariate data=test2 noprint;
  var region departement quartier commune;
  by id;
  output out=test2_out max=region departement quartier commune;
run;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 id    region    departement    quartier    commune
 10      25           27           13          20
111      94            .            .           .
113      70           25           30         100

Cordialement,

**kartalo** · 21/08/2019, 09h37

j ai pris le même jeux de donné car j ai un problème similaire , la différence que je cherche à cumuler les informations pour chaque ID on remarque bien que à chaque ligne y a des informations qui manquent , le but est de cumuler les informations dans une seule ligne pour chaque ID , et pour les informations disponibles pour un ID on prend la dernière

**mgdondon** · 21/08/2019, 10h07

Bonjour,

Je ne connais pas de fonction "dernière donnée non manquante" qui pourrait être utilisée dans la proc univariate.

Une possibilité est de traiter chaque variable indépendamment et merger les tables obtenues :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
data test2;
  input id $ region $ departement $ quartier $ commune $;
  cards;
10 25 NULL NULL NULL
10 NULL 27 NULL NULL
10 NULL NULL 13 20
111 94 NULL NULL NULL
113 27 NULL NULL NULL
113 NULL 25 NULL NULL
113 NULL NULL 30 NULL
113 70 NULL NULL NULL
113 NULL NULL NULL 100
;
run;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
%macro niveau(niv);
  data &niv;
    set test2(keep=(id niv) where=(niv ne "NULL"));
    by id;
    if last.id;
  run;
 
  data test2_out;
    merge test2_out &niv;
    by id;
  run;
%mend;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
data test2_out;
  length id 8.;
run;
 
%macro niveau(region);
%macro niveau(departement);
%macro niveau(quartier);
%macro niveau(commune);

Cordialement,

PS : J'ai vu que j'avais oublié de coller le code de la proc univariate dans mon précédent message, c'est réparé.

**kartalo** · 21/08/2019, 15h33

je vous remercie infiniment le code marche très bien et donne le résultat souhaité

je vous propose une amélioration pour ne pas répéter l’exécution de la macro plusieurs fois en cas on aura plusieurs colonnes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
proc sql;
        create table inventaire_tables_col as select
        b.name
        from dictionary.columns b
        where  b.libname eq "WORK"
        and    b.memtype ="DATA"
        and    strip(lowcase(b.memname)) eq "test2" 
		and    strip(lowcase(b.name)) ne "id" ;
    quit;
data _null_;
set inventaire_tables_col; 
call execute('%nrstr(%niveau(%nrstr('||strip(name)||')))');
run;

supprimer les doublons après la mise à jour

SAS Base

Discussions similaires

Partager

Partager