Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 02/06/2011, 22h56   #1
Candidat au titre de Membre du Club
 
Inscription : septembre 2006
Messages : 22
Détails du profil
Informations forums :
Inscription : septembre 2006
Messages : 22
Points : 13
Points : 13
Par défaut Utilisation de PROC MI : imputation valeurs manquantes

Bonjour à tous,

J'aimerais faire de l'imputation statistique sur des données manquantes, c'est à dire déterminer les valeurs les plus probables prises par les variables en question en fonction d'autres variables. Apparemment, "PROC MI" est la procédure à utiliser. Mais j'ai un peu de mal à comprendre l'objectif de l'imputation multiple. Ce qui me surprend est que la méthode PROC MIANALYZE semble juste établir des statistiques sur les différentes valeurs imputées mais pas de trancher sur -la- valeur la plus plausible... Du coup, je ne saisis pas son utilité. Est-ce qu'il suffirait dans mon cas de faire de l'imputation simple (i.e. spécifier NIMPUTE à 1) ?

Merci d'avance,
Mark
Mark531 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/06/2011, 07h21   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Bonjour Mark.
J'ai l'impression que tu es dans le même cas que Lilouche dans son message ici.
Non, MIANALYZE ne tranche pas quant à savoir quelle est la "meilleure" valeur imputée : elles sont toutes bonnes.
Citation:
Pour résumer : quand tu imputes des données manquantes, tu masques leur caractère artificiel dans l'analyse qui suit. Pour y remédier, Donald Rubin a proposé un mécanisme appelé "imputation multiple" (Multiple Imputation=MI) qui propose de remplacer chaque valeur manquante non pas par une valeur mais par N ! (Il montre ensuite qu'on obtient des résultats corrects avec N=5 sans besoin de répéter davantage.)
En obtenant ensuite N séries de résultats différents selon le jeu imputé, on traduit l'incertitude (une part de variance supplémentaire) qu'il y a à combler des trous dont on ne sait pas ce qu'ils devraient contenir ni comment ils se sont formés.
D'où l'intérêt de la proc MIANALYZE, qui reprend les N séries de résultats et les combine en augmentant les variances des estimateurs de la variance due à l'imputation.

Cela dit, si le seul but est de compléter une base, PROC MI avec NIMPUTE=1 peut aussi donner des résultats satisfaisants. Le reste des (très) nombreux paramètres permet d'obtenir des générateurs aléatoires très performants.
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/06/2011, 11h28   #3
Candidat au titre de Membre du Club
 
Inscription : septembre 2006
Messages : 22
Détails du profil
Informations forums :
Inscription : septembre 2006
Messages : 22
Points : 13
Points : 13
Bonjour Olivier,

Merci pour ta réponse. J'avais lu ton message à Lilouche mais je ne comprends pas concrètement la finalité de l'imputation multiple. Est-ce qu'on est censé travailler après non plus sur un jeu de données mais sur N ? Dans l'aide de SAS, il est dit que PROC MIANALYZE "combine" les différentes valeurs, c'est ce terme qui m'a induit en erreur.

D'autre part, est-ce qu'il n'existe pas de "meilleure" valeur vers laquelle la méthode de MCMC va converger ? C'est aussi cet aspect qui me trouble...

Merci,
Mark
Mark531 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/06/2011, 15h39   #4
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
En fait, le MCMC converge vers une distribution, pas une valeur. Donc toute valeur tirée dans cette distribution est "bonne".

Oui, la logique de l'imputation multiple est ensuite de travailler sur TOUS les jeux de données en parallèle (avec un BY). D'où le recours ensuite à MIANALYZE pour combiner les résultats (d'une régression, d'un calcul de médiane, d'une corrélation, ...) sur les différents jeux de données.
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/06/2011, 00h29   #5
Candidat au titre de Membre du Club
 
Inscription : septembre 2006
Messages : 22
Détails du profil
Informations forums :
Inscription : septembre 2006
Messages : 22
Points : 13
Points : 13
Ok, c'est plus clair maintenant.

Merci beaucoup !
Mark
Mark531 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 18h24.


 
 
 
 
Partenaires

Hébergement Web