IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS Base Discussion :

Doublons par date de naissance et sexe


Sujet :

SAS Base

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Femme Profil pro
    Inscrit en
    Janvier 2014
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Janvier 2014
    Messages : 23
    Par défaut Doublons par date de naissance et sexe
    Bonjour à tous,
    J'ai une base avec des consultations médicales donc il peut y avoir plusieurs fois le même identifiant.
    J'aimerai retrouver les identifiants pour lesquels la date de naissance ou le sexe sont différents d'une ligne à l'autre (c'est à dire d'une consultation à l'autre par patient).
    Sauriez-vous comment faire ?
    Merci d'avance...

  2. #2
    Membre Expert
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 53
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Par défaut
    Bonjour,

    Un truc un peu compliqué et qui ne marchera pas en SAS inférieur à 9.2 et sur les tables "hénaurmes" (>1 Go).

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
     
    data table;
    id=1;sexe=1;date=2001;output;
    id=1;sexe=1;date=2001;output;
    id=2;sexe=2;date=2001;output;
    id=3;sexe=1;date=2001;output;
    id=3;sexe=1;date=2010;output;
    id=4;sexe=1;date=2001;output;
    id=4;sexe=2;date=2010;output;
    id=4;sexe=2;date=2010;output;
    id=5;sexe=1;date=2001;output;
    id=5;sexe=1;date=2001;output;
    run;
     
    proc sort DATA=TABLE; BY id ;run;
     
     
    DATA _null_ ;
     
    if _n_=1 then   do;
    declare hash ligne ();
    ligne= _new_ hash(dataset: "table (obs=0)",multidata: "YES");
    ligne.defineKey('id');
    ligne.defineData(all:'yes');
    ligne.defineDone();
    				end;
     
    SET TABLE end=eof;
    retain s d ctrle;
    BY id ;
    if first.id=1 then do;ctrle=0;s=sexe;d=date;end;
    if s^=sexe or d^=date then ctrle=1;
    rc=ligne.add();
    if last.id and ctrle=0 then do; rc=ligne.remove();do while(rc^=0);rc=ligne.remove();end;end;
    if eof  then rc=ligne.output(dataset:"lignes_doubles");
    run;

  3. #3
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Par défaut
    Bonjour.
    Une solution alternative, en 2 proc Sort.
    La 1e, avec l'option NODUPKEY et un BY id dateNaissance sexe, et tu récupères dans une table OUT les combinaisons uniques de ces 3 variables. Normalement il n'y a qu'une ligne par ID, sauf quand les infos de sexe de de date de naissance ont changé au fil des consultations.
    La 2e, avec l'option NODUPKEY et un BY id, sur le résultat de la 1e ; tu récupères dans une table DUPOUT les identifiants qui n'étaient pas sur une seule ligne après le 1er dédoublonnage.
    Je suis clair, là ? Pas sûr. Faut tester.
    Bon courage.
    Olivier

  4. #4
    Membre averti
    Femme Profil pro
    Inscrit en
    Janvier 2014
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Janvier 2014
    Messages : 23
    Par défaut
    Bonjour,
    J'avais essayé avec l'option Nodupkey mais ça ne me sortait pas ce que je voulais

    Puis j'ai essayé ca :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    proc sort data=table; by identifiant sexe date;run;
    data table_double;
    set table;
    by identifiant sexe date;
    if (first.sexe*last.sexe=0) or (first.date*last.date=0);
    run;
    Ça ne marche uniquement dans les cas où les patients ont 2 consultations...

    Le programme qui marche dans mon cas est celui de Jérôme.
    Je ne comprend pas tout mais après vérification, ça marche ! Merci beaucoup!
    Je vais me pencher dessus pour essayer de comprendre tout le programme.

    PS : je n'ai pas créé mon propre sujet car je trouvais ça un peu redondant avec celui sur lequel j'ai posté, mais la prochaine fois je le ferai alors.
    Merci encore.

  5. #5
    Membre Expert
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 53
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Par défaut
    Citation Envoyé par Noiram94 Voir le message
    Le programme qui marche dans mon cas est celui de Jérôme.
    Je ne comprend pas tout mais après vérification, ça marche ! Merci beaucoup!
    Je vais me pencher dessus pour essayer de comprendre tout le programme.
    C'est une ré-écriture en une seule étape data par l'utilisation d'un objet hash servant à stocker les résultats intermédiaires (et permettre de sélectionner toutes les lignes voulue en permettant une sorte de retour en arrière dans les lignes d'un même id une fois toutes celles-ci lues) du programme suivant composé d'une étape data suivie d'une SQL

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    data id_dbl;
    SET TABLE ;
    retain s d ctrle;
    BY id ;
    IF first.id=1 then do;ctrle=0;s=sexe;d=date;end;
    IF s^=sexe OR d^=date then ctrle=1;
    keep id ctrle;
    run;
     
    proc sql;
    create table lignes_doubles2
    as select tab1.*
    from table as tab1
    where tab1.id in (select id from id_dbl where ctrle=1);
    quit;

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [LibreOffice][Tableur] Mise en place d'un tri automatique par date de naissance
    Par Fred64680 dans le forum OpenOffice & LibreOffice
    Réponses: 3
    Dernier message: 14/09/2014, 09h55
  2. Recherche de doublons par date
    Par Farid_developpement dans le forum MS SQL Server
    Réponses: 4
    Dernier message: 06/02/2014, 10h57
  3. Comment Deviner une Date de Naissance par une petite récréation mathématique !
    Par hackoofr dans le forum La taverne du Club : Humour et divers
    Réponses: 8
    Dernier message: 04/11/2011, 10h21
  4. Réponses: 2
    Dernier message: 21/03/2007, 16h52
  5. Moteur de recherche par date
    Par Prue dans le forum ASP
    Réponses: 17
    Dernier message: 27/08/2003, 16h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo