Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 20/01/2011, 11h49   #1
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Par défaut données manquantes - Choix de la méthode d'imputation

Salut à tous,

J'aurais voulu si savoir qqn à déjà comparé ou étudié le choix de la méthode à utiliser pour imputer des données manquantes, ainsi que son application sous SAS.

En résumé, j'hésite entre deux familles de méthodes:
  • Missing Completely At Random (MCAR)
  • Missing At Random (MAR)

A priori je ne retiens pas la famille Missing Not At Random (MNAR), qui me parait plus fumeuse, mais tout point de vue sur cette famille (ou autre) est bien entendu le bienvenu.

A ma connaissance la famille MCAR regroupe plutôt des méthodes simples du style Last Observation Carried Forward (LOCF), unconditional mean, conditional mean, ...

MAR passe par des méthodes un peu plus complexes comme l'imputation multiple (Proc MI et MIANALYZE sous sas) ou l'algorithme d'expectation maximization (EM).

Par le passé, j'ai eu l'occasion de comparer des méthodes simples (LOCF, unconditional mean, conditional mean) à des analyses ne considérant pas d'impuation, et dans mon cas j'étais arrivé la conclusion, après analyses sas, que les trois méthodes d'imputation ne présentait pas de différence sensible.

Ma question est la suivante: Quelle méthode préconisez vous(parmi les familles MAR et MCAR)? Y-a-t-il des situations qui préconisent plutôt l'utilisation d'une méthode ou d'une autre? La méthode ou famille de méthodes à appliquer est elle tributaire du pourcentage escompté de données manquantes (cette question émane d'un lointain souvenir d'une discussion ou on me conseillant -si mes souvenirs sont bons - de rester sur de l'imputation simple tant que le taux de données mq est < à 30%)?

merci pour vos réponses,

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/01/2011, 08h39   #2
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Bonjour Manoutz,

Je ne connais aucune de ces 2 méthodes, mai je pourrais te proposer une macro qui te détermine le pourcentage des valeurs manquantes sur chaque variable. ça pourrait peut être t'aider à faire ton choix.



Brice
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/01/2011, 09h56   #3
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Merci de ta réponse, mais ma question est plutôt d'ordre méthodologique, souhaiterais orienter la discussion et partager les points de vue concernant les conditions d'attribution du choix de la méthode d'imputation. Une fois ce point éclairci le code sas est assez basique - quelques subtilités éventuellement suivant la méthode retenue. Le calcul des fréquences de données mq ne posera pas de problèmes en tout cas.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 00h01.


 
 
 
 
Partenaires

Hébergement Web