Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 23/09/2011, 17h03   #1
Candidat au titre de Membre du Club
 
Inscription : novembre 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : novembre 2010
Messages : 28
Points : 11
Points : 11
Par défaut Logistic Regression et Test de type III pour effect interaction

Bonjour,

J'ai une question plutot de stats...

J'utilise la proc logistic pour faire de la modelisation
J'ai decouvert l'utilisation de la syntaxe "|" pour prendre en compte les interactions de variables explicatives deux a deux.
Comme dans cet exemple:
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
proc logistic DATA=input ;
class var1 var2 var3 
/ param=GLM 
; 
model dummy   = var1 var2 var3
var1|var2|var3 @2 
/
selection = stepwise 
noint /* Suppresses intercept */
 
details /* requests detailed results at each step */
 
slentry=0.5 /* Significance for effects entry */
slstay=0.10 /*  Significance for removal of effects */
;
run ;
Le pbm c'est que je ne suis pas sur de comprendre les consequences de la syntaxe utilisee dans cet exemple pour l'integration des interactions dans le modele final.

L'interet immediat que je vois de mentionner la ligne "var1|var2|var3 @2" c'est d'avoir les resultats du test du ratio des vraisemblances pour chaque paires d'interaction (dans l'output il s'agit du bloc "Type III Analysis of Effect" avec le Wald Chi Square et la p-value associee) Si l'interaction existe alors ma p-value est faible : la paire d'interaction est significative comme covariate et traduit une "correlation" des deux variable. C'est qqchose de bon a savoir. La regression logistique fonctionne alors dans ce cas la comme une sorte d'outil de mesure de la correlation.

La ou c'est moins clair, c'est le fait que mentionner ou pas ces interactions dans les variables explicatives change qqchose dans l'estimation de mon model final. Lorsque je ne les mentionne pas je n'obtiens pas les memes stats d'association (c, tau-a, sommers-D) ni les memes Beta (puisque certaines des interactions sont retenues a l'issue de l'algorithme Stepwise comme variables explicatives)

J'ai toujours compris que l'interet de la regression logistic c'est d'integrer les interactions entre les variables explicatives dans un cadre multivarie. Pourquoi devrait-on donc les mentionner explicitement dans la syntaxe 'MODEL' ?

Qqn pourrait il me renseigner ou me renvoyer sur un lien ou une explication ? C'est un peu confus pour moi.
Merci bp !
dachboden est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 24/09/2011, 18h34   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 828
Points : 2 828
Bonjour.
Je suis d'accord qu'un modèle permet d'intégrer l'influence de plusieurs variables simultanément, contrairement aux méthodes de statistique descriptive. Mais je crois que tu confonds "influence simultanée" et "interaction".
Quand tu utilises la syntaxe X1|X2 dans un modèle, tu introduis dans le modèle 3 informations : X1, X2, chacune prise séparément, et X1*X2 qui est l'interaction.
Quelle est la différence entre un modèle avec X1 et X2 seulement, et un modèle avec X1, X2 et X1*X2 ?
Dans le premier cas, le modèle tient compte de X1 et de X2 dans l'influence sur Y. Mais l'influence de X1 ne dépend pas de la valeur de X2. C'est un commentaire "toutes choses égales par ailleurs", c'est à dire à X2 fixé, mais sans valeur spécifique de X2.
Dans le cas de l'interaction X1*X2, on suppose en plus que l'influence de X1 sur Y dépend de la valeur de X2. Donc le commentaire de X1 n'est plus "toutes choses égales par ailleurs" puisqu'il dépend de ce que vaut X2.

En règle générale, on suppose que les variables qu'on intègre à un modèle sont suffisamment indépendantes pour qu'on puisse tenir le raisonnement "toutes choses égales par ailleurs". Parfois on a des raisons métier (ou des soupçons dus à un graphique descriptif) de penser qu'il y a interactions entre deux variables. Mais ce n'est pas du tout systématique.
De plus, je ne suis pas sûr qu'une interaction significative indique forcément une "corrélation" entre 2 variables ; mais plutôt qu'elles ont un effet simultané sur Y qui ne peut pas être décomposé selon chacune des variables.

Je pense donc que tu devrais rester en 1e approche sur des modèles à effets simples (sans interactions), sauf pour quelques couples de variables pour lesquelles tu as des soupçons.
Je conseille même en général de construire en amont les interactions sous forme de nouvelles variables, parce qu'on maîtrise les croisements qui sont intéressants à distinguer, on évite ceux qui n'existent pas, etc.
Par exemple, pour une interaction AGE*SEXE, on ne voudra pas forcément distinguer le sexe à tous les âges. Une interaction incluse directement dans l'instruction MODEL fera toutes les combinaisons, alors qu'une variable calculée en amont permettra de faire des catégories "Jeunes H&F", "Hommes adultes", "Femmes adultes", "Seniors H&F".

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/09/2011, 10h43   #3
Candidat au titre de Membre du Club
 
Inscription : novembre 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : novembre 2010
Messages : 28
Points : 11
Points : 11
Merci beaucoup Olivier pour votre reponse
(Au passage, je vous remercie aussi pour tout les tutoriels SAS que vous mettez en ligne et qui me sont bien precieux)

C'est beaucoup plus clair pour moi maintenant.

Je conviens bien volontiers que l'emploi du terme 'correlation' n'est pas approprie pour decrire le phenomene modelise par le facteur X1*X2 puisqu'il s'agit en fait de modeliser l'effet cumule de X1 et X2 sur la variable modelise Y.

J'ai employe ce terme a mauvais escient parce que j'avais commence par calculer les Cramers V de mes variables 2 a 2 sur la base de mon echantillon. Et j'ai observe que les variables qui avaient des Cramers V eleve (proche de 1) etaient aussi celles dont les interactions dans mon modele etait significatives... En fait il s'agit bien de 2 phenomenes differents (avec le cramers V on mesure une dependance au niveau des distributions de deux variables entre elles alors qu'avec les interactions du modele logistic, on fait intervenir une 3ieme variable) , donc visiblement Cramer's V eleve => Interaction dans modele logistic
alors que la reciproque est fausse :
interaction dans modele logistic n'implique pas Cramer's V eleve.
Confirmez vous ces deux derniers affirmations ?

Il me semble qu'elles sont correctes si on les "intuite" a partir de l'exemple suivant:
On veut modeliser les effets de l'ingestion de plusieurs medicaments en meme temps sur la variable 'guerison' ou 'non guerison'. Var dichotomique 1 = prendre medicament A et var dichotomique 2=prendre medicament B. Si les medicaments A et B forment un cocktail mortel lorsqu'ils sont ingeres en meme temps leur interaction sera significative dans le modele alors que leur Cramer'S V pourra etre tres faible puisque il ne dependra que du fait que des patients dans l'echantillon se soient vu prescris les deux medicaments en meme temps (ce qui statistiquement correspond a un autre evenement)
Donc ici interaction n'implique pas Cramer's V

En revanche, si je definit une variable explicative a partir d'une seconde (exemple: Var dichotomique 1= prendre medicament A alors que Vardichotomique 2 = prendre medicament A + Medicament B) Alors variable 1 et 2 auront un cramer's V eleve ET une interaction elevee.


Derniere question, voyez vous d'autres outils statistiques que le Cramers V pour anticiper ces interactions (avant meme de proceder a une regression logistique).
Vous parliez de raisons metiers ou de graphiques descriptifs. Y a t'il d'autres outils de mesures ?

Merci bp !
dachboden est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/09/2011, 17h34   #4
Candidat au titre de Membre du Club
 
Inscription : novembre 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : novembre 2010
Messages : 28
Points : 11
Points : 11
Hello,

Encore un commentaire... sur l'interet de definir une variable supplementaire en amont pour prendre en compte les interactions

je modelise donc Y en fonction de X1 et X2

X1 a 3 modalites
X2 a 2 modalites
X1*X2 a donc 6 modalites
Je choisis de definir X3 explicitement comme toute les combinaisons possible de X1 et X2. X3 a donc 6 modalites aussi.

Je me place dans le cadre de la proc logistic avec selection stepwise.

Si j'ecris model Y = X1 X2 X1*X2 alors j'obtiens des betas (valeur de score) pour X1 et X2 et certaines combinaisons de X1*X2 (pas toutes. Certaines combinaisons ont des estimés = 0 et d'autres ont des estimes <> de 0 mais dont la significativite est tres faible, d'autres enfin ont des estimes <> de 0 et sont significatives)
SAS a donc retenu in fine dans mon modele de score un panaché de variables "toutes choses egales par ailleurs" et d'interactions (pour certaines modalites seulement)


Si j'ecris model Y = X1 X2 X3 alors j'obtiens des betas pour X3 seulement ! X1 et X2 n'ont pas ete retenues !!

Au demeurant, si je score les differentes combinaisons possibles de X1 et X2 avec le premier set de Beta et le second set de Beta je trouve exactement les memes proba P_0 et P_1 pour chaque combinaison

C'est rassurant puisqu'il s'agit de la meme specification de modele. La seule difference est donc que dans un cas je controle d'avance que ma scorecard ne sera definie qu'avec une variable d'interaction et dans l'autre je n'ai pas vraiment de controle sur l'allure de ma scorecard finale. Ce qui peut rendre moins evidente l'interpretation directe de ma scorecard...

PS: j'imagine qu'il doit y avoir dans SAS une option pour forcer la proc logistique a ne produire des Beta que pour la variable d'interaction definie avec la syntaxe X1*X2 mais je ne la connais pas.




Merci bp
dachboden est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 20h34.


 
 
 
 
Partenaires

Hébergement Web