Publicité
+ Répondre à la discussion
Affichage des résultats 1 à 5 sur 5
  1. #1
    Futur Membre du Club
    Inscrit en
    septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : septembre 2006
    Messages : 35
    Points : 19
    Points
    19

    Par défaut Utilisation de PROC MI : imputation valeurs manquantes

    Bonjour à tous,

    J'aimerais faire de l'imputation statistique sur des données manquantes, c'est à dire déterminer les valeurs les plus probables prises par les variables en question en fonction d'autres variables. Apparemment, "PROC MI" est la procédure à utiliser. Mais j'ai un peu de mal à comprendre l'objectif de l'imputation multiple. Ce qui me surprend est que la méthode PROC MIANALYZE semble juste établir des statistiques sur les différentes valeurs imputées mais pas de trancher sur -la- valeur la plus plausible... Du coup, je ne saisis pas son utilité. Est-ce qu'il suffirait dans mon cas de faire de l'imputation simple (i.e. spécifier NIMPUTE à 1) ?

    Merci d'avance,
    Mark

  2. #2
    Expert Confirmé
    Avatar de olivier.decourt
    Homme Profil pro Olivier Decourt
    Formateur en informatique
    Inscrit en
    avril 2008
    Messages
    1 741
    Détails du profil
    Informations personnelles :
    Nom : Homme Olivier Decourt
    Âge : 37
    Localisation : France

    Informations professionnelles :
    Activité : Formateur en informatique
    Secteur : Conseil

    Informations forums :
    Inscription : avril 2008
    Messages : 1 741
    Points : 3 430
    Points
    3 430

    Par défaut

    Bonjour Mark.
    J'ai l'impression que tu es dans le même cas que Lilouche dans son message ici.
    Non, MIANALYZE ne tranche pas quant à savoir quelle est la "meilleure" valeur imputée : elles sont toutes bonnes.
    Pour résumer : quand tu imputes des données manquantes, tu masques leur caractère artificiel dans l'analyse qui suit. Pour y remédier, Donald Rubin a proposé un mécanisme appelé "imputation multiple" (Multiple Imputation=MI) qui propose de remplacer chaque valeur manquante non pas par une valeur mais par N ! (Il montre ensuite qu'on obtient des résultats corrects avec N=5 sans besoin de répéter davantage.)
    En obtenant ensuite N séries de résultats différents selon le jeu imputé, on traduit l'incertitude (une part de variance supplémentaire) qu'il y a à combler des trous dont on ne sait pas ce qu'ils devraient contenir ni comment ils se sont formés.
    D'où l'intérêt de la proc MIANALYZE, qui reprend les N séries de résultats et les combine en augmentant les variances des estimateurs de la variance due à l'imputation.

    Cela dit, si le seul but est de compléter une base, PROC MI avec NIMPUTE=1 peut aussi donner des résultats satisfaisants. Le reste des (très) nombreux paramètres permet d'obtenir des générateurs aléatoires très performants.
    Bon courage.
    Olivier
    Bon courage.
    Olivier

    Merci de ne m'envoyer des MP que pour les questions personnelles. Pour toute question posée sur le forum, m'envoyer un MP ne fera pas venir de réponse plus rapidement.

  3. #3
    Futur Membre du Club
    Inscrit en
    septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : septembre 2006
    Messages : 35
    Points : 19
    Points
    19

    Par défaut

    Bonjour Olivier,

    Merci pour ta réponse. J'avais lu ton message à Lilouche mais je ne comprends pas concrètement la finalité de l'imputation multiple. Est-ce qu'on est censé travailler après non plus sur un jeu de données mais sur N ? Dans l'aide de SAS, il est dit que PROC MIANALYZE "combine" les différentes valeurs, c'est ce terme qui m'a induit en erreur.

    D'autre part, est-ce qu'il n'existe pas de "meilleure" valeur vers laquelle la méthode de MCMC va converger ? C'est aussi cet aspect qui me trouble...

    Merci,
    Mark

  4. #4
    Expert Confirmé
    Avatar de olivier.decourt
    Homme Profil pro Olivier Decourt
    Formateur en informatique
    Inscrit en
    avril 2008
    Messages
    1 741
    Détails du profil
    Informations personnelles :
    Nom : Homme Olivier Decourt
    Âge : 37
    Localisation : France

    Informations professionnelles :
    Activité : Formateur en informatique
    Secteur : Conseil

    Informations forums :
    Inscription : avril 2008
    Messages : 1 741
    Points : 3 430
    Points
    3 430

    Par défaut

    En fait, le MCMC converge vers une distribution, pas une valeur. Donc toute valeur tirée dans cette distribution est "bonne".

    Oui, la logique de l'imputation multiple est ensuite de travailler sur TOUS les jeux de données en parallèle (avec un BY). D'où le recours ensuite à MIANALYZE pour combiner les résultats (d'une régression, d'un calcul de médiane, d'une corrélation, ...) sur les différents jeux de données.
    Bon courage.
    Olivier

    Merci de ne m'envoyer des MP que pour les questions personnelles. Pour toute question posée sur le forum, m'envoyer un MP ne fera pas venir de réponse plus rapidement.

  5. #5
    Futur Membre du Club
    Inscrit en
    septembre 2006
    Messages
    35
    Détails du profil
    Informations forums :
    Inscription : septembre 2006
    Messages : 35
    Points : 19
    Points
    19

    Par défaut

    Ok, c'est plus clair maintenant.

    Merci beaucoup !
    Mark

+ Répondre à la discussion
Cette discussion est résolue.

Liens sociaux

Règles de messages

  • Vous ne pouvez pas créer de nouvelles discussions
  • Vous ne pouvez pas envoyer des réponses
  • Vous ne pouvez pas envoyer des pièces jointes
  • Vous ne pouvez pas modifier vos messages
  •