IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS Base Discussion :

Suppression répétitions mots dans une modalité ou dans différentes colonnes


Sujet :

SAS Base

  1. #1
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2011
    Messages
    85
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2011
    Messages : 85
    Points : 45
    Points
    45
    Par défaut Suppression répétitions mots dans une modalité ou dans différentes colonnes
    Boujour à tous !

    j'aurai besoin de votre aide pour résoudre un problème auquel je suis confronté.

    j'ai une table contenant plusieurs colonnes contenant un mot, j'aimerai pouvoir supprimer les doublons qu'il peut exister entre les colonnes pour un même ligne

    Autrement j'ai une colonne concat qui rassemble les différents mots, peut être qu'il existe une focntion qui perme de supprimer la répétition d'un mot
    voici un exemple de ce que j'ai dans ma table SAS.

    Nom : tableau.png
Affichages : 302
Taille : 14,5 Ko

    Merci !!

  2. #2
    Membre éprouvé
    Avatar de m.brahim
    Homme Profil pro
    SAS / BIG DATA
    Inscrit en
    Juillet 2011
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : SAS / BIG DATA
    Secteur : Conseil

    Informations forums :
    Inscription : Juillet 2011
    Messages : 461
    Points : 1 119
    Points
    1 119
    Billets dans le blog
    14
    Par défaut
    Bonjour,

    Je te propose cette solution:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
     
    data test;
    infile cards dsd dlm=',';
    input id mot1 $ mot2 $ mot3 $ mot4 $ mot5 $;
    cards;
    1,ou,ou,ou,pmg ,  
    2, ,ou,ou,ou, 
    3,PMG,PMG,ou ,PMG,
    4,PGM,ou,PGM,ou,
    ;run;
     
     
     
    data test1(keep=id mot:);
    set test;
    length val $10.;
    array mot(*) mot1 mot2 mot3 mot4 mot5;
    do i=1 to dim(mot);
    if mot(i) ne "" then do;
    val=mot(i);
    rc=i+1;
    do j=rc to dim(mot);
    if mot(j)=val then call missing(mot(j));
    end;
    end;
    end;
    run;
    Cordialement
    Certification des Talents de la programmation In Memory Statistics sur HADOOP:
    http://talents-imstat.groupe-avisia....avance?uid=162

  3. #3
    Membre expérimenté
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Points : 1 581
    Points
    1 581
    Par défaut
    Bonjour,

    je me suis permis de modifier la solution de m.brahim qui est de complexité algorithmique N^2 en une autre dont la complexité algorithmique sera d'ordre N, ce qui permet d'accélérer les calculs si le nombre de variable contenant tes mots est "grand".

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    data test;
    infile cards dsd dlm=',';
    input id mot1 $ mot2 $ mot3 $ mot4 $ mot5 $;
    cards;
    1,ou,ou,ou,pmg ,  
    2, ,ou,ou,ou, 
    3,PMG,PMG,ou ,PMG,
    4,PGM,ou,PGM,ou,
    ;run;
     
     
    DATA test2;
    LENGTH motdic $80 ;
    IF _N_=1 THEN  DO;
                   DECLARE HASH DIC();
                   DIC.DEFINEKEY('motdic');
                   DIC.DEFINEDONE();
                   END;
    SET test;
    ARRAY mot(*) mot1 mot2 mot3 mot4 mot5;
    RC_dic=DIC.CLEAR();
    DO Boucle=1 TO dim(mot);
    motdic=mot(Boucle);
    RC_dic=DIC.CHECK();
    IF RC_dic=0    THEN CALL MISSING(mot(Boucle));
                   ELSE RC_dic=DIC.ADD();
    END;
    DROP RC_dic motdic boucle ;
    RUN;

  4. #4
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2016
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 32
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2016
    Messages : 6
    Points : 7
    Points
    7
    Par défaut
    Bonjour,

    J'ai une question à vous poser svp, c'est hors sujet peut être mais vu que je suis encore débutant sur SAS j'aimerai savoir comment on peut faire pour avoir la colonne concat_mots qui rassemble les différents mots ?

    Merci.

  5. #5
    Membre expérimenté
    Homme Profil pro
    Développeur en SAS/ Statisticien
    Inscrit en
    Janvier 2013
    Messages
    483
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Développeur en SAS/ Statisticien
    Secteur : Enseignement

    Informations forums :
    Inscription : Janvier 2013
    Messages : 483
    Points : 1 552
    Points
    1 552
    Par défaut C'est un DM
    Bonjour,
    Peut être, vous souhaitez supprimer également les données manquantes (DM) entre les modalités d’une même ligne.
    Si c’est le cas, je vous propose cette solution en deux fois Proc Transpose et une Proc Freq :
    1 >> Proc Transpose : Mettre l’ensemble des variables dans une seule colonne.
    2 >> Proc Freq : Supprimer les doublons y compris les DM, en créant une table where=(col1 ne ' ').
    3 >> Proc Transpose : Créer une nouvelle table, sans doublons et DM, à partir de la table créée en cours de la procédure précédente.

Discussions similaires

  1. Réponses: 9
    Dernier message: 27/05/2009, 14h30
  2. position dans une image (selection dans une image)
    Par kaiseresis dans le forum Images
    Réponses: 3
    Dernier message: 31/05/2008, 13h30
  3. Réponses: 10
    Dernier message: 18/04/2007, 17h17
  4. Changer un caractère dans une chaîne contenue dans une phrase
    Par cirtey dans le forum Algorithmes et structures de données
    Réponses: 9
    Dernier message: 07/03/2007, 16h16
  5. Réponses: 4
    Dernier message: 16/05/2006, 23h15

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo