IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Utilisation de PROC MI : imputation valeurs manquantes


Sujet :

SAS STAT

  1. #1
    Nouveau membre du Club
    Inscrit en
    Septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 35
    Points : 35
    Points
    35
    Par défaut Utilisation de PROC MI : imputation valeurs manquantes
    Bonjour à tous,

    J'aimerais faire de l'imputation statistique sur des données manquantes, c'est à dire déterminer les valeurs les plus probables prises par les variables en question en fonction d'autres variables. Apparemment, "PROC MI" est la procédure à utiliser. Mais j'ai un peu de mal à comprendre l'objectif de l'imputation multiple. Ce qui me surprend est que la méthode PROC MIANALYZE semble juste établir des statistiques sur les différentes valeurs imputées mais pas de trancher sur -la- valeur la plus plausible... Du coup, je ne saisis pas son utilité. Est-ce qu'il suffirait dans mon cas de faire de l'imputation simple (i.e. spécifier NIMPUTE à 1) ?

    Merci d'avance,
    Mark

  2. #2
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Bonjour Mark.
    J'ai l'impression que tu es dans le même cas que Lilouche dans son message ici.
    Non, MIANALYZE ne tranche pas quant à savoir quelle est la "meilleure" valeur imputée : elles sont toutes bonnes.
    Pour résumer : quand tu imputes des données manquantes, tu masques leur caractère artificiel dans l'analyse qui suit. Pour y remédier, Donald Rubin a proposé un mécanisme appelé "imputation multiple" (Multiple Imputation=MI) qui propose de remplacer chaque valeur manquante non pas par une valeur mais par N ! (Il montre ensuite qu'on obtient des résultats corrects avec N=5 sans besoin de répéter davantage.)
    En obtenant ensuite N séries de résultats différents selon le jeu imputé, on traduit l'incertitude (une part de variance supplémentaire) qu'il y a à combler des trous dont on ne sait pas ce qu'ils devraient contenir ni comment ils se sont formés.
    D'où l'intérêt de la proc MIANALYZE, qui reprend les N séries de résultats et les combine en augmentant les variances des estimateurs de la variance due à l'imputation.

    Cela dit, si le seul but est de compléter une base, PROC MI avec NIMPUTE=1 peut aussi donner des résultats satisfaisants. Le reste des (très) nombreux paramètres permet d'obtenir des générateurs aléatoires très performants.
    Bon courage.
    Olivier
    Bon courage.
    Olivier

  3. #3
    Nouveau membre du Club
    Inscrit en
    Septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 35
    Points : 35
    Points
    35
    Par défaut
    Bonjour Olivier,

    Merci pour ta réponse. J'avais lu ton message à Lilouche mais je ne comprends pas concrètement la finalité de l'imputation multiple. Est-ce qu'on est censé travailler après non plus sur un jeu de données mais sur N ? Dans l'aide de SAS, il est dit que PROC MIANALYZE "combine" les différentes valeurs, c'est ce terme qui m'a induit en erreur.

    D'autre part, est-ce qu'il n'existe pas de "meilleure" valeur vers laquelle la méthode de MCMC va converger ? C'est aussi cet aspect qui me trouble...

    Merci,
    Mark

  4. #4
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    En fait, le MCMC converge vers une distribution, pas une valeur. Donc toute valeur tirée dans cette distribution est "bonne".

    Oui, la logique de l'imputation multiple est ensuite de travailler sur TOUS les jeux de données en parallèle (avec un BY). D'où le recours ensuite à MIANALYZE pour combiner les résultats (d'une régression, d'un calcul de médiane, d'une corrélation, ...) sur les différents jeux de données.
    Bon courage.
    Olivier

  5. #5
    Nouveau membre du Club
    Inscrit en
    Septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 35
    Points : 35
    Points
    35
    Par défaut
    Ok, c'est plus clair maintenant.

    Merci beaucoup !
    Mark

  6. #6
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2015
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Janvier 2015
    Messages : 10
    Points : 10
    Points
    10
    Par défaut variables catégorielles proc mi
    Bonjour,

    je relance la discussion,
    j'ai un soucis,
    je cherche à imputer un data set dont toutes les variables d'interet sont catégorielle.

    avez vous une idée ?

    merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 8
    Dernier message: 01/12/2017, 15h21
  2. Proc format et valeurs manquantes
    Par huître dans le forum SAS Base
    Réponses: 2
    Dernier message: 03/07/2014, 12h45
  3. Proc logistic et valeurs manquantes
    Par dachboden dans le forum SAS STAT
    Réponses: 3
    Dernier message: 06/05/2011, 13h55
  4. Proc Format avec valeur manquante
    Par Silbad dans le forum SAS Base
    Réponses: 9
    Dernier message: 15/05/2009, 16h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo