IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS Base Discussion :

Gestion des doublons avec données discordantes ou incomplètes


Sujet :

SAS Base

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 14
    Points : 7
    Points
    7
    Par défaut Gestion des doublons avec données discordantes ou incomplètes
    Bonjour à tous,

    J'ai à disposition une base dans laquelle j'ai identifié des doublons, dans le sens où il s'agit en réalité de mêmes sujets, mais dont les identifiants diffèrent suite à un déménagement et donc une prise en compte dans un autre centre avec un autre identifiant.
    J'ai donc identifié ces doublons, mais en pratique, certaines variables peuvent ne pas être renseignées dans un centre mais l'être dans l'autre. Je voudrais savoir comment faire une seule observation à partir de ces deux lignes d'observation correspondant à un seul sujet.

    Pour être plus clair je vais donner un exemple :

    A partir de ces deux lignes :

    Var1 Var2 Var3 Var4 Var 5
    1 H . 2 3 .
    2 H 1 . 3 .

    Je souhaiterais obtenir :

    1 H 1 2 3 .

    Et enfin questiion subsidiaire, comment gérer les cas où les deux sont renseignés mais sont discordants? Par exemple :

    Var6
    1 3
    2 4

    A noter que je n'ai aucune notion de SQL..


    Merci d'avance pour votre aide.

  2. #2
    Rédacteur

    Homme Profil pro
    SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Inscrit en
    Avril 2009
    Messages
    2 497
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2009
    Messages : 2 497
    Points : 6 064
    Points
    6 064
    Par défaut
    pour la deuxième question c'est à ton responsable de décider : c'est ce que l'on appelle une règle métier.

    pour le premier si tu ne connais pas SQL (prend 1 heure tu verras c'est très facile) je te propose une proc SUMMARY où tu cherches le MAX des valeurs pour VAR2.
    N'oubliez pas de cliquer sur lorsque votre problème est réglé !

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 14
    Points : 7
    Points
    7
    Par défaut
    Citation Envoyé par datametric Voir le message
    pour la deuxième question c'est à ton responsable de décider : c'est ce que l'on appelle une règle métier.

    pour le premier si tu ne connais pas SQL (prend 1 heure tu verras c'est très facile) je te propose une proc SUMMARY où tu cherches le MAX des valeurs pour VAR2.
    Merci pour ta réponse.

    Pour la deuxième question, en effet c'est un choix mais en pratique comment dire à SAS quelles règles utiliser pour choisir?

    Je vais jeter un oeil à la PROC SUMMARY.
    Merci de ton aide.

  4. #4
    Rédacteur

    Homme Profil pro
    SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Inscrit en
    Avril 2009
    Messages
    2 497
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2009
    Messages : 2 497
    Points : 6 064
    Points
    6 064
    Par défaut
    ça dépend de la règle
    N'oubliez pas de cliquer sur lorsque votre problème est réglé !

  5. #5
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 14
    Points : 7
    Points
    7
    Par défaut
    Citation Envoyé par datametric Voir le message
    ça dépend de la règle
    Je vais donner un exemple:

    Par exemple
    Pour var4 il faut que ce soit la valeur située sur la même ligne que la var2 la plus basse (c'est surtout cet aspect qui me pose problème).

    Concrètement, je cherche à déterminer au sein d'un doublon sur quelle ligne le délai entre une date fixée et une date de mesure est le plus court (var2), et alors sélectionner la var4 qui est sur la même ligne.

    Merci d'avance.

  6. #6
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 14
    Points : 7
    Points
    7
    Par défaut
    En cherchant un peu, j'envisage d'enlever les doublons et de les mettre dans une autre base via une PROC SORT, puis via une étape data de réassocier les deux bases, en utilisant MODIFY ou UPDATE au lieu de MERGE, ce qui à priori permettrait d'introduire certaines règles.

    Je ne sais pas encore si je fais fausse route, il faut que je voie la syntaxe, je ne sais pas si vous avez un avis là dessus..

  7. #7
    Rédacteur

    Homme Profil pro
    SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Inscrit en
    Avril 2009
    Messages
    2 497
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : SAS ALLIANCE SILVER. Consultant et formateur SAS et Cognos.
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2009
    Messages : 2 497
    Points : 6 064
    Points
    6 064
    Par défaut
    tu fais l'isolement des doublons avec DUPOUT de la proc SORT, c'est plus facile.
    N'oubliez pas de cliquer sur lorsque votre problème est réglé !

  8. #8
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 14
    Points : 7
    Points
    7
    Par défaut
    Oui c'est ce que j'avais fait.

    Au final je pense que MODIFY est le plus adapté mais j'ai un peu de mal à bien comprendre la syntaxe.. Je pense qu'il faudra que je fasse plusieurs essais pour ne pas faire d'âneries...

Discussions similaires

  1. [XL-2013] Tri de données / Tableau Croisé Dynamique / Gestions des Doublons.
    Par arnachronox dans le forum Excel
    Réponses: 5
    Dernier message: 29/12/2014, 13h41
  2. Réponses: 0
    Dernier message: 19/11/2013, 07h57
  3. [AC-2007] Gestion des doublons avec 2 champs indexés
    Par bestall666 dans le forum VBA Access
    Réponses: 4
    Dernier message: 08/06/2010, 18h53
  4. Gestion des connexions avec la base de donnée
    Par lr dans le forum Tomcat et TomEE
    Réponses: 6
    Dernier message: 11/02/2009, 03h47
  5. Class de gestion des images avec rotation
    Par Johnny Boy dans le forum MFC
    Réponses: 1
    Dernier message: 03/05/2005, 11h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo