Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 08/02/2011, 16h58   #1
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Par défaut Estimation de la décomposition de la variance - Proc GLIMMIX

Bonjour,

J'utilise Proc GLIMMIX pour ajuster un modèle linéaire à effets mixtes et je voudrai savoir s'il existe un moyen direct pour obtenir les contributions respectives des effets fixes et aléatoires sur la variance totale de la variable prédite.

Merci!

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 17h15   #2
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Bonjour,

Apparamment la Proc GLIMMIX est disponible qu'en V9.2 et proche de la proc Logistic c'est ça?
Ta variable à expliquer est donc qualitative je suppose!!
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 17h31   #3
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Bonjour Astrid.
Je ne sais pas si la démarche est 100% exacte d'un point de vue théorique ni si elle correspond à ton besoin, mais j'utilise les stats de test des éléments aléatoires (COVTEST dans les procédures MIXED et GLIMMIX) et les tests de type 3 pour les facteurs fixes.
Dans la procédure GLIMMIX, COVTEST est une instruction à part. Tu peux écrire par exemple
Code :
1
2
3
4
5
6
PROC GLIMMIX DATA=... ;
 CLASS ... ;
 MODEL ... = ... ;
 RANDOM ... ;
 COVTEST / WALD ;
RUN ;
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 17h40   #4
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Bonjour Olivier,

Le problème c'est que le test de type III me permet de vérifier que mes effets fixes sont bien significatifs, donc je peux savoir si effectivement ils expliquent une part de la variance mais comment quantifier cette part? Ce que je voudrais bien évaluer, c'est quelle est la part de variance de ma variable dépendante (quantitative par ailleurs) expliquée par mes effets fixes et aléatoires respectivement.

Merci!

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 17h55   #5
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Si j'ai bien compris ce qu'on avait échangé dernièrement avec Olivier, les effets fixes ont une variance nulle.

Il me semble que (à confirmer): Dans ton modèle la variance totale se décompose variance prise en compte par les effets aléatoires et résidus, non prises en compte
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 18h01   #6
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Bonjour Manoutz,

Les effets aléatoires permettent de contrôler une partie des variations. Dans le modèle il y a une part de variance expliquée par les effets fixes, une part expliquée par les effets aléatoires, et une part résiduelle affectivement, donc non expliquée par le modèle. Si les effets aléatoires n'expliquaient rien des variations constatées sur la variable prédite, alors ça ne servirait à rien de les inclure dans le modèle il me semble.

Et donc justement je trouverai pertinent de quantifier les parts respectives de chacune des variables explicatives dans la précision finale.

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 19h07   #7
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Peut être s'est-on mal compris: je ne nie pas que les effets aléatoires n'ont pas de variabilité - cf mon message précédent. Par contre je mets en doute le fait que les effets fixes aient une variabilité.

Prends le cas d'une régression toute simple, pas d'effets mixtes: en regardant la sortie SAS, chaque variable aura une variabilité. Cette variabilité est attribuable aux résidus, si je ne me trompe pas (à confirmer). Le principe est le même dans ton cas, sauf que la variabilité se décompose en deux facteurs, une variabilité prise en compte dans ton modèle par l'inclusion du random, et une variabilité résiduelle.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 20h20   #8
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Salut,

Excuse-moi, j'ai écrit aléatoire pour fixes.

Cependant je ne suis pas d'accord avec toi. Dans le cas d'une régression toute simple, les effets fixes expliquent une part de la variance. Et ce qui n'est pas expliqué par eux est dans les résidus.

Tous les effets expliquent une part de variabilité selon moi, sinon à quoi bon les inclure dans le modèle si ils n'ont aucun pouvoir prédictif sur la variable dépendante.

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/02/2011, 21h04   #9
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Effectivement, tous les effets qu'on inclut dans un modèle, fixes ou aléatoires, portent une part de variabilité. Qu'elle soit significativement différente de 0 ou non.
Astrid, ce que tu veux faire ressemble aux sorties de la procédure VARCOMP. Malheureusement celle-ci est limitée aux cas où Y suit une loi normale.
Dans ton cas, si tu as utilisé la proc GLIMMIX plutôt que MIXED, c'est à cause de la non-normalité, je suppose. Le souci dans ce cas-là est qu'on ne peut plus vraiment se fixer sur la variance pour rapporter correctement des quantités d'information expliquées. En effet, ce qui fait le charme de la loi normale, c'est l'indépendance entre moyenne et variance : quel que soit le "niveau" de ton groupe, sa variance peut être estimée séparément. Alors qu'avec les autres lois (par exemple, Poisson, où moyenne=variance) il y a une évolution conjointe des deux quantités. C'est pour ça qu'on passe par une fonction de lien : pour découpler variance et moyenne, et pouvoir estimer les deux séparément.
Dans les modèles linéaires généralisés (proc GENMOD et donc GLIMMIX) on s'appuie plutôt sur des vraisemblances pour mesurer des quantités d'information. L'idéal serait donc, pour réaliser ce que tu veux, de décomposer la vraisemblance entre tous les effets, fixes et aléatoires, introduits dans le modèle. (A noter que dans le cas d'un Y normal, la vraisemblance est la même chose, à un facteur près, que la somme des carrés. On s'y retrouve dans l'esprit.)

Maintenant, est-ce qu'on peut faire ça avec SAS ? Je ne sais pas.

Peut-être qu'une approche plausible (mais je n'ai aucun argument théorique et pas envie d'attraper un papier et un crayon pour chercher à faire des démos calculatoires) serait de considérer, juste pour ce besoin, tous les effets comme fixes : les statistiques de type 3 indiqueraient alors (en prenant la valeur de leur F) quelles sont leurs importances relatives.
Ce n'est qu'une vague intuition, parce que pour moi, un effet aléatoire n'est pas foncièrement différent d'un effet fixe, c'est juste qu'on lui affecte plus d'incertitude dans ses estimations puisqu'il n'est observé que sur un échantillon. Ca ne devrait pas (si mon intuition est juste ; là encore j'espère qu'on me fournira une justification théorique imparable) affecter leur influence sur la vraisemblance.

Bon courage.
Olivier

PS @ Manoutz : cette histoire de variance portée par les effets fixes va a contrario de ma démonstration de l'autre jour sur ce qui est aléatoire ou non dans un modèle. Je sens bien que le terrain est instable et je n'ai pas d'argument massue. J'ai dans l'idée (très confusément et parce que ça m'arrange) que ce n'est pas incompatible... mais pourquoi ? et comment ?
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 11h42   #10
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Effectivement je tends à penser qu'on ne se comprends pas.

Mais je maintiens ma position. Les effets fixes ont une variance nulle, ou plutot la variabilité s'exprime dans les résidus. J'ai pensé à un exemple, dites moi ce que vous en pensez.

Prenons une régression simple ou une ANOVA (pas d'effets mixtes). L'écriture du modèle est Y=A+B*X+e, avec

Y variable dépendante
X variable indépendate, continue ou catégorique
A intercepte
B paramètre estimé associé à X
e résidus.

Si les effets fixes ont une variabilité, on peut écrire Y=A+B*X, on ne retiens pas les résidus, et la variabilité sera attribuable aux effets fixes(l'indépendance entre effets fixes et résidus est hypothèse de ce type de modèle).

Je me suis donc amusé à compiler ceci:
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
 
/*cas continu*/DATA TEST; 
A=ranuni(-3);
B=ranuni(-3);
do I=1 TO 1000;
	Y=rannorm(-3);
	X=(Y-A)/B;
/*je l'ai écrit comme ca pour avoir une une distribution normale des Y*/ 
	output;
end;
run;
 
proc mixed DATA=test;
model y=X/ddfm=KR;
run;proc glm DATA=test;
model y=X;
run;
quit;
 
/*cas discret*/
DATA TEST2; 
A=ranuni(-3);
B=ranuni(-3);
do I=1 TO 1000;
	TEMP=rannor(-3);
	IF TEMP<0 then X=0; else X=1;
	Y=A+B*X;
	output;
end;
run;
 
 
proc mixed DATA=TEST2;
class X;
model y=X/ddfm=KR;
run;proc glm DATA=TEST2;
class X;
model y=X;
run;
quit;
Vous pourrez constater qu'il n'y a pas de variabilité et que ca pose des problèmes d'estimation.


Quand à la justification théorique, il faut passer par un peu de formules:

J'ai ressorti le bouquin de Verbeke et Molenberghs: "Linear Mixed Models for Longitudinal Data", Springer, 2000.

p.24, chapitre 3.3.1

"In general, a linear mixed-effects model is any model which satisfies:
  • Yi=Xi*beta+Zi*bi+ei, avec beta effets fices et covariables correspondantes, bi effets aléatoires et Zi associés
  • bi~N(0,D)
  • ei~N(0, Ei)
  • b1,..bn, e1,..,en independent

"

S'en suit des considérations quelque peu complexes sur des formulations hiérarchiques ou marginales du modèle, je vous les épargne. C'est dommage j'ai été obligé de couper, c'est un peu long, il y a pas mal de prérequis, et des formulations qui ne passent pas dans l'éditeur du forum. Dans les deux cas, en tout cas, la moyenne est Xi*beta et la variance ZiDZ'i+Ei.

La variance a donc bien deux composantes, une rattachée à l'introduction de l'aléatoire dans le modèle, une aux résidus.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 12h22   #11
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Le raisonnement que suit Astrid est la suite du théorème de Huyguens et de la décomposition de la variance que fait le test de Fisher :
Variance totale = variance expliquée + variance résiduelle
Avec une seule variable X quali, qui définit des groupes d'observations, on écrirait
Var(Y) = Var(entre les centres de groupes) + Var(à l'intérieur des groupes)

Dans ton 2e exemple, Y est binaire ! On n'a donc pas de variabilité intra-groupes, d'où les soucis d'estimation. Dans ton 1er exemple, c'est la même chose, puisque X définit également des groupes, pour chacune de ses valeurs. Les problèmes dans l'estimation viennent de là.

Quant aux effets aléatoires, il s'agit d'une précision sur la variance intra-groupes, sur laquelle on peut mettre un nom puisqu'elle est en partie due à des facteurs de l'on connaît (à défaut de les contrôler) : par exemple l'identité du médecin qui réalise une mesure de tension.

Peut-être que c'est là la justification que je cherchais hier soir : le raisonnement sur ce qui est ou non aléatoire (et les équations que tu cites, où la variance de Y est composée de celle des facteurs aléatoires et de celle des résidus) valable au niveau individuel, et le raisonnement de décomposition de la variance (inter-groupes + intra-groupes dûe aux effets aléatoires + intra-groupes résiduelle) qui est valable au niveau des effets du modèle, globalement.
Si c'est ça, je comprends que je me sente vaseux dans mes explications : c'est comme la différence entre les intervalles de confiance CLM et CLI, je n'ai toujours pas bien "senti" la différence.

Mais à nous tous, on va bien finir par mettre les choses à plat. (Une intervention céleste de George Milliken qui viendrait prendre un pseudo pour nous poster une réponse serait un rêve éveillé.)

Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 13h24   #12
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Ca nous mêne assez loin finalement cette petite question. Effectivement, je suis d'accord avec Olivier, c'est bien mon raisonnement.

Je n'ai toujours pas solutionné mon problème, mais je vous tiendrai au courant quand j'aurai trouvé le moyen de décomposer quantitativement mes termes de variances.

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2011, 13h47   #13
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Astrid, tu dis que ta variable Y est quanti. Mais elle n'est pas normale, puisque sinon tu serais en train de faire des procédures MIXED.
J'imagine donc qu'elle est asymétrique (Gamma ou log-normale).
Pourquoi ne pas essayer de passer log(Y) à travers la proc VARCOMP ? Ca serait assez propre statistiquement (en tout cas sans doute pas loin de la réalité car log(Y) ne sera pas loin d'une loi normale) et ça aurait le mérite d'éviter de compliquer les équations.
Qu'en penses-tu ?
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 08h01.


 
 
 
 
Partenaires

Hébergement Web