|
Publicité ' | |||||||||||||||||||||||
|
|
#1 | ||
|
Candidat au titre de Membre du Club
![]() Inscription : novembre 2010 Messages : 28 ![]() |
Bonjour,
J'ai une question plutot de stats... J'utilise la proc logistic pour faire de la modelisation J'ai decouvert l'utilisation de la syntaxe "|" pour prendre en compte les interactions de variables explicatives deux a deux. Comme dans cet exemple: Code :
L'interet immediat que je vois de mentionner la ligne "var1|var2|var3 @2" c'est d'avoir les resultats du test du ratio des vraisemblances pour chaque paires d'interaction (dans l'output il s'agit du bloc "Type III Analysis of Effect" avec le Wald Chi Square et la p-value associee) Si l'interaction existe alors ma p-value est faible : la paire d'interaction est significative comme covariate et traduit une "correlation" des deux variable. C'est qqchose de bon a savoir. La regression logistique fonctionne alors dans ce cas la comme une sorte d'outil de mesure de la correlation. La ou c'est moins clair, c'est le fait que mentionner ou pas ces interactions dans les variables explicatives change qqchose dans l'estimation de mon model final. Lorsque je ne les mentionne pas je n'obtiens pas les memes stats d'association (c, tau-a, sommers-D) ni les memes Beta (puisque certaines des interactions sont retenues a l'issue de l'algorithme Stepwise comme variables explicatives) J'ai toujours compris que l'interet de la regression logistic c'est d'integrer les interactions entre les variables explicatives dans un cadre multivarie. Pourquoi devrait-on donc les mentionner explicitement dans la syntaxe 'MODEL' ? Qqn pourrait il me renseigner ou me renvoyer sur un lien ou une explication ? C'est un peu confus pour moi. Merci bp ! |
||
|
|
10
|
|
|
#2 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Bonjour.
Je suis d'accord qu'un modèle permet d'intégrer l'influence de plusieurs variables simultanément, contrairement aux méthodes de statistique descriptive. Mais je crois que tu confonds "influence simultanée" et "interaction". Quand tu utilises la syntaxe X1|X2 dans un modèle, tu introduis dans le modèle 3 informations : X1, X2, chacune prise séparément, et X1*X2 qui est l'interaction. Quelle est la différence entre un modèle avec X1 et X2 seulement, et un modèle avec X1, X2 et X1*X2 ? Dans le premier cas, le modèle tient compte de X1 et de X2 dans l'influence sur Y. Mais l'influence de X1 ne dépend pas de la valeur de X2. C'est un commentaire "toutes choses égales par ailleurs", c'est à dire à X2 fixé, mais sans valeur spécifique de X2. Dans le cas de l'interaction X1*X2, on suppose en plus que l'influence de X1 sur Y dépend de la valeur de X2. Donc le commentaire de X1 n'est plus "toutes choses égales par ailleurs" puisqu'il dépend de ce que vaut X2. En règle générale, on suppose que les variables qu'on intègre à un modèle sont suffisamment indépendantes pour qu'on puisse tenir le raisonnement "toutes choses égales par ailleurs". Parfois on a des raisons métier (ou des soupçons dus à un graphique descriptif) de penser qu'il y a interactions entre deux variables. Mais ce n'est pas du tout systématique. De plus, je ne suis pas sûr qu'une interaction significative indique forcément une "corrélation" entre 2 variables ; mais plutôt qu'elles ont un effet simultané sur Y qui ne peut pas être décomposé selon chacune des variables. Je pense donc que tu devrais rester en 1e approche sur des modèles à effets simples (sans interactions), sauf pour quelques couples de variables pour lesquelles tu as des soupçons. Je conseille même en général de construire en amont les interactions sous forme de nouvelles variables, parce qu'on maîtrise les croisements qui sont intéressants à distinguer, on évite ceux qui n'existent pas, etc. Par exemple, pour une interaction AGE*SEXE, on ne voudra pas forcément distinguer le sexe à tous les âges. Une interaction incluse directement dans l'instruction MODEL fera toutes les combinaisons, alors qu'une variable calculée en amont permettra de faire des catégories "Jeunes H&F", "Hommes adultes", "Femmes adultes", "Seniors H&F". Bon courage. Olivier |
|
|
00
|
|
|
#3 |
|
Candidat au titre de Membre du Club
![]() Inscription : novembre 2010 Messages : 28 ![]() |
Merci beaucoup Olivier pour votre reponse
(Au passage, je vous remercie aussi pour tout les tutoriels SAS que vous mettez en ligne et qui me sont bien precieux) C'est beaucoup plus clair pour moi maintenant. Je conviens bien volontiers que l'emploi du terme 'correlation' n'est pas approprie pour decrire le phenomene modelise par le facteur X1*X2 puisqu'il s'agit en fait de modeliser l'effet cumule de X1 et X2 sur la variable modelise Y. J'ai employe ce terme a mauvais escient parce que j'avais commence par calculer les Cramers V de mes variables 2 a 2 sur la base de mon echantillon. Et j'ai observe que les variables qui avaient des Cramers V eleve (proche de 1) etaient aussi celles dont les interactions dans mon modele etait significatives... En fait il s'agit bien de 2 phenomenes differents (avec le cramers V on mesure une dependance au niveau des distributions de deux variables entre elles alors qu'avec les interactions du modele logistic, on fait intervenir une 3ieme variable) , donc visiblement Cramer's V eleve => Interaction dans modele logistic alors que la reciproque est fausse : interaction dans modele logistic n'implique pas Cramer's V eleve. Confirmez vous ces deux derniers affirmations ? Il me semble qu'elles sont correctes si on les "intuite" a partir de l'exemple suivant: On veut modeliser les effets de l'ingestion de plusieurs medicaments en meme temps sur la variable 'guerison' ou 'non guerison'. Var dichotomique 1 = prendre medicament A et var dichotomique 2=prendre medicament B. Si les medicaments A et B forment un cocktail mortel lorsqu'ils sont ingeres en meme temps leur interaction sera significative dans le modele alors que leur Cramer'S V pourra etre tres faible puisque il ne dependra que du fait que des patients dans l'echantillon se soient vu prescris les deux medicaments en meme temps (ce qui statistiquement correspond a un autre evenement) Donc ici interaction n'implique pas Cramer's V En revanche, si je definit une variable explicative a partir d'une seconde (exemple: Var dichotomique 1= prendre medicament A alors que Vardichotomique 2 = prendre medicament A + Medicament B) Alors variable 1 et 2 auront un cramer's V eleve ET une interaction elevee. Derniere question, voyez vous d'autres outils statistiques que le Cramers V pour anticiper ces interactions (avant meme de proceder a une regression logistique). Vous parliez de raisons metiers ou de graphiques descriptifs. Y a t'il d'autres outils de mesures ? Merci bp ! |
|
|
00
|
|
|
#4 |
|
Candidat au titre de Membre du Club
![]() Inscription : novembre 2010 Messages : 28 ![]() |
Hello,
Encore un commentaire... sur l'interet de definir une variable supplementaire en amont pour prendre en compte les interactions je modelise donc Y en fonction de X1 et X2 X1 a 3 modalites X2 a 2 modalites X1*X2 a donc 6 modalites Je choisis de definir X3 explicitement comme toute les combinaisons possible de X1 et X2. X3 a donc 6 modalites aussi. Je me place dans le cadre de la proc logistic avec selection stepwise. Si j'ecris model Y = X1 X2 X1*X2 alors j'obtiens des betas (valeur de score) pour X1 et X2 et certaines combinaisons de X1*X2 (pas toutes. Certaines combinaisons ont des estimés = 0 et d'autres ont des estimes <> de 0 mais dont la significativite est tres faible, d'autres enfin ont des estimes <> de 0 et sont significatives) SAS a donc retenu in fine dans mon modele de score un panaché de variables "toutes choses egales par ailleurs" et d'interactions (pour certaines modalites seulement) Si j'ecris model Y = X1 X2 X3 alors j'obtiens des betas pour X3 seulement ! X1 et X2 n'ont pas ete retenues !! Au demeurant, si je score les differentes combinaisons possibles de X1 et X2 avec le premier set de Beta et le second set de Beta je trouve exactement les memes proba P_0 et P_1 pour chaque combinaison C'est rassurant puisqu'il s'agit de la meme specification de modele. La seule difference est donc que dans un cas je controle d'avance que ma scorecard ne sera definie qu'avec une variable d'interaction et dans l'autre je n'ai pas vraiment de controle sur l'allure de ma scorecard finale. Ce qui peut rendre moins evidente l'interpretation directe de ma scorecard... PS: j'imagine qu'il doit y avoir dans SAS une option pour forcer la proc logistique a ne produire des Beta que pour la variable d'interaction definie avec la syntaxe X1*X2 mais je ne la connais pas. Merci bp |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com