Suppression répétitions mots dans une modalité ou dans différentes colonnes

**antoine2933** · 23/02/2017, 14h14

Boujour à tous !

j'aurai besoin de votre aide pour résoudre un problème auquel je suis confronté.

j'ai une table contenant plusieurs colonnes contenant un mot, j'aimerai pouvoir supprimer les doublons qu'il peut exister entre les colonnes pour un même ligne

Autrement j'ai une colonne concat qui rassemble les différents mots, peut être qu'il existe une focntion qui perme de supprimer la répétition d'un mot
voici un exemple de ce que j'ai dans ma table SAS.

Nom : tableau.png
Affichages : 302
Taille : 14,5 Ko

Nom : tableau.png
Affichages : 302
Taille : 14,5 Ko

Merci !!

**m.brahim** · 24/02/2017, 23h12

Bonjour,

Je te propose cette solution:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
 
data test;
infile cards dsd dlm=',';
input id mot1 $ mot2 $ mot3 $ mot4 $ mot5 $;
cards;
1,ou,ou,ou,pmg ,  
2, ,ou,ou,ou, 
3,PMG,PMG,ou ,PMG,
4,PGM,ou,PGM,ou,
;run;
 
 
 
data test1(keep=id mot:);
set test;
length val $10.;
array mot(*) mot1 mot2 mot3 mot4 mot5;
do i=1 to dim(mot);
if mot(i) ne "" then do;
val=mot(i);
rc=i+1;
do j=rc to dim(mot);
if mot(j)=val then call missing(mot(j));
end;
end;
end;
run;

Cordialement

**JeromeMATHIAS** · 27/02/2017, 09h26

Bonjour,

je me suis permis de modifier la solution de m.brahim qui est de complexité algorithmique N^2 en une autre dont la complexité algorithmique sera d'ordre N, ce qui permet d'accélérer les calculs si le nombre de variable contenant tes mots est "grand".

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
data test;
infile cards dsd dlm=',';
input id mot1 $ mot2 $ mot3 $ mot4 $ mot5 $;
cards;
1,ou,ou,ou,pmg ,  
2, ,ou,ou,ou, 
3,PMG,PMG,ou ,PMG,
4,PGM,ou,PGM,ou,
;run;
 
 
DATA test2;
LENGTH motdic $80 ;
IF _N_=1 THEN  DO;
               DECLARE HASH DIC();
               DIC.DEFINEKEY('motdic');
               DIC.DEFINEDONE();
               END;
SET test;
ARRAY mot(*) mot1 mot2 mot3 mot4 mot5;
RC_dic=DIC.CLEAR();
DO Boucle=1 TO dim(mot);
motdic=mot(Boucle);
RC_dic=DIC.CHECK();
IF RC_dic=0    THEN CALL MISSING(mot(Boucle));
               ELSE RC_dic=DIC.ADD();
END;
DROP RC_dic motdic boucle ;
RUN;

**H.Chen** · 27/02/2017, 16h07

Bonjour,

J'ai une question à vous poser svp, c'est hors sujet peut être mais vu que je suis encore débutant sur SAS j'aimerai savoir comment on peut faire pour avoir la colonne concat_mots qui rassemble les différents mots ?

Merci.

**hossward** · 06/03/2017, 22h26

Bonjour,
Peut être, vous souhaitez supprimer également les données manquantes (DM) entre les modalités d’une même ligne.
Si c’est le cas, je vous propose cette solution en deux fois Proc Transpose et une Proc Freq :
1 >> Proc Transpose : Mettre l’ensemble des variables dans une seule colonne.
2 >> Proc Freq : Supprimer les doublons y compris les DM, en créant une table where=(col1 ne ' ').
3 >> Proc Transpose : Créer une nouvelle table, sans doublons et DM, à partir de la table créée en cours de la procédure précédente.

Suppression répétitions mots dans une modalité ou dans différentes colonnes

SAS Base

Discussions similaires

Partager

Partager