IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Logistic Regression et Test de type III pour effect interaction


Sujet :

SAS STAT

  1. #1
    Membre à l'essai
    Inscrit en
    Novembre 2010
    Messages
    28
    Détails du profil
    Informations forums :
    Inscription : Novembre 2010
    Messages : 28
    Points : 22
    Points
    22
    Par défaut Logistic Regression et Test de type III pour effect interaction
    Bonjour,

    J'ai une question plutot de stats...

    J'utilise la proc logistic pour faire de la modelisation
    J'ai decouvert l'utilisation de la syntaxe "|" pour prendre en compte les interactions de variables explicatives deux a deux.
    Comme dans cet exemple:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    proc logistic data=input ;
    class var1 var2 var3 
    / param=GLM 
    ; 
    model dummy   = var1 var2 var3
    var1|var2|var3 @2 
    /
    selection = stepwise 
    noint /* Suppresses intercept */
     
    details /* requests detailed results at each step */
     
    slentry=0.5 /* Significance for effects entry */
    slstay=0.10 /*  Significance for removal of effects */
    ;
    run ;
    Le pbm c'est que je ne suis pas sur de comprendre les consequences de la syntaxe utilisee dans cet exemple pour l'integration des interactions dans le modele final.

    L'interet immediat que je vois de mentionner la ligne "var1|var2|var3 @2" c'est d'avoir les resultats du test du ratio des vraisemblances pour chaque paires d'interaction (dans l'output il s'agit du bloc "Type III Analysis of Effect" avec le Wald Chi Square et la p-value associee) Si l'interaction existe alors ma p-value est faible : la paire d'interaction est significative comme covariate et traduit une "correlation" des deux variable. C'est qqchose de bon a savoir. La regression logistique fonctionne alors dans ce cas la comme une sorte d'outil de mesure de la correlation.

    La ou c'est moins clair, c'est le fait que mentionner ou pas ces interactions dans les variables explicatives change qqchose dans l'estimation de mon model final. Lorsque je ne les mentionne pas je n'obtiens pas les memes stats d'association (c, tau-a, sommers-D) ni les memes Beta (puisque certaines des interactions sont retenues a l'issue de l'algorithme Stepwise comme variables explicatives)

    J'ai toujours compris que l'interet de la regression logistic c'est d'integrer les interactions entre les variables explicatives dans un cadre multivarie. Pourquoi devrait-on donc les mentionner explicitement dans la syntaxe 'MODEL' ?

    Qqn pourrait il me renseigner ou me renvoyer sur un lien ou une explication ? C'est un peu confus pour moi.
    Merci bp !

  2. #2
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Bonjour.
    Je suis d'accord qu'un modèle permet d'intégrer l'influence de plusieurs variables simultanément, contrairement aux méthodes de statistique descriptive. Mais je crois que tu confonds "influence simultanée" et "interaction".
    Quand tu utilises la syntaxe X1|X2 dans un modèle, tu introduis dans le modèle 3 informations : X1, X2, chacune prise séparément, et X1*X2 qui est l'interaction.
    Quelle est la différence entre un modèle avec X1 et X2 seulement, et un modèle avec X1, X2 et X1*X2 ?
    Dans le premier cas, le modèle tient compte de X1 et de X2 dans l'influence sur Y. Mais l'influence de X1 ne dépend pas de la valeur de X2. C'est un commentaire "toutes choses égales par ailleurs", c'est à dire à X2 fixé, mais sans valeur spécifique de X2.
    Dans le cas de l'interaction X1*X2, on suppose en plus que l'influence de X1 sur Y dépend de la valeur de X2. Donc le commentaire de X1 n'est plus "toutes choses égales par ailleurs" puisqu'il dépend de ce que vaut X2.

    En règle générale, on suppose que les variables qu'on intègre à un modèle sont suffisamment indépendantes pour qu'on puisse tenir le raisonnement "toutes choses égales par ailleurs". Parfois on a des raisons métier (ou des soupçons dus à un graphique descriptif) de penser qu'il y a interactions entre deux variables. Mais ce n'est pas du tout systématique.
    De plus, je ne suis pas sûr qu'une interaction significative indique forcément une "corrélation" entre 2 variables ; mais plutôt qu'elles ont un effet simultané sur Y qui ne peut pas être décomposé selon chacune des variables.

    Je pense donc que tu devrais rester en 1e approche sur des modèles à effets simples (sans interactions), sauf pour quelques couples de variables pour lesquelles tu as des soupçons.
    Je conseille même en général de construire en amont les interactions sous forme de nouvelles variables, parce qu'on maîtrise les croisements qui sont intéressants à distinguer, on évite ceux qui n'existent pas, etc.
    Par exemple, pour une interaction AGE*SEXE, on ne voudra pas forcément distinguer le sexe à tous les âges. Une interaction incluse directement dans l'instruction MODEL fera toutes les combinaisons, alors qu'une variable calculée en amont permettra de faire des catégories "Jeunes H&F", "Hommes adultes", "Femmes adultes", "Seniors H&F".

    Bon courage.
    Olivier
    Bon courage.
    Olivier

  3. #3
    Membre à l'essai
    Inscrit en
    Novembre 2010
    Messages
    28
    Détails du profil
    Informations forums :
    Inscription : Novembre 2010
    Messages : 28
    Points : 22
    Points
    22
    Par défaut
    Merci beaucoup Olivier pour votre reponse
    (Au passage, je vous remercie aussi pour tout les tutoriels SAS que vous mettez en ligne et qui me sont bien precieux)

    C'est beaucoup plus clair pour moi maintenant.

    Je conviens bien volontiers que l'emploi du terme 'correlation' n'est pas approprie pour decrire le phenomene modelise par le facteur X1*X2 puisqu'il s'agit en fait de modeliser l'effet cumule de X1 et X2 sur la variable modelise Y.

    J'ai employe ce terme a mauvais escient parce que j'avais commence par calculer les Cramers V de mes variables 2 a 2 sur la base de mon echantillon. Et j'ai observe que les variables qui avaient des Cramers V eleve (proche de 1) etaient aussi celles dont les interactions dans mon modele etait significatives... En fait il s'agit bien de 2 phenomenes differents (avec le cramers V on mesure une dependance au niveau des distributions de deux variables entre elles alors qu'avec les interactions du modele logistic, on fait intervenir une 3ieme variable) , donc visiblement Cramer's V eleve => Interaction dans modele logistic
    alors que la reciproque est fausse :
    interaction dans modele logistic n'implique pas Cramer's V eleve.
    Confirmez vous ces deux derniers affirmations ?

    Il me semble qu'elles sont correctes si on les "intuite" a partir de l'exemple suivant:
    On veut modeliser les effets de l'ingestion de plusieurs medicaments en meme temps sur la variable 'guerison' ou 'non guerison'. Var dichotomique 1 = prendre medicament A et var dichotomique 2=prendre medicament B. Si les medicaments A et B forment un cocktail mortel lorsqu'ils sont ingeres en meme temps leur interaction sera significative dans le modele alors que leur Cramer'S V pourra etre tres faible puisque il ne dependra que du fait que des patients dans l'echantillon se soient vu prescris les deux medicaments en meme temps (ce qui statistiquement correspond a un autre evenement)
    Donc ici interaction n'implique pas Cramer's V

    En revanche, si je definit une variable explicative a partir d'une seconde (exemple: Var dichotomique 1= prendre medicament A alors que Vardichotomique 2 = prendre medicament A + Medicament B) Alors variable 1 et 2 auront un cramer's V eleve ET une interaction elevee.


    Derniere question, voyez vous d'autres outils statistiques que le Cramers V pour anticiper ces interactions (avant meme de proceder a une regression logistique).
    Vous parliez de raisons metiers ou de graphiques descriptifs. Y a t'il d'autres outils de mesures ?

    Merci bp !

  4. #4
    Membre à l'essai
    Inscrit en
    Novembre 2010
    Messages
    28
    Détails du profil
    Informations forums :
    Inscription : Novembre 2010
    Messages : 28
    Points : 22
    Points
    22
    Par défaut
    Hello,

    Encore un commentaire... sur l'interet de definir une variable supplementaire en amont pour prendre en compte les interactions

    je modelise donc Y en fonction de X1 et X2

    X1 a 3 modalites
    X2 a 2 modalites
    X1*X2 a donc 6 modalites
    Je choisis de definir X3 explicitement comme toute les combinaisons possible de X1 et X2. X3 a donc 6 modalites aussi.

    Je me place dans le cadre de la proc logistic avec selection stepwise.

    Si j'ecris model Y = X1 X2 X1*X2 alors j'obtiens des betas (valeur de score) pour X1 et X2 et certaines combinaisons de X1*X2 (pas toutes. Certaines combinaisons ont des estimés = 0 et d'autres ont des estimes <> de 0 mais dont la significativite est tres faible, d'autres enfin ont des estimes <> de 0 et sont significatives)
    SAS a donc retenu in fine dans mon modele de score un panaché de variables "toutes choses egales par ailleurs" et d'interactions (pour certaines modalites seulement)


    Si j'ecris model Y = X1 X2 X3 alors j'obtiens des betas pour X3 seulement ! X1 et X2 n'ont pas ete retenues !!

    Au demeurant, si je score les differentes combinaisons possibles de X1 et X2 avec le premier set de Beta et le second set de Beta je trouve exactement les memes proba P_0 et P_1 pour chaque combinaison

    C'est rassurant puisqu'il s'agit de la meme specification de modele. La seule difference est donc que dans un cas je controle d'avance que ma scorecard ne sera definie qu'avec une variable d'interaction et dans l'autre je n'ai pas vraiment de controle sur l'allure de ma scorecard finale. Ce qui peut rendre moins evidente l'interpretation directe de ma scorecard...

    PS: j'imagine qu'il doit y avoir dans SAS une option pour forcer la proc logistique a ne produire des Beta que pour la variable d'interaction definie avec la syntaxe X1*X2 mais je ne la connais pas.




    Merci bp

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 8
    Dernier message: 04/11/2014, 15h49
  2. Langage de prog. simple type basic pour RS232, vos idées SVP
    Par briconique dans le forum Langages de programmation
    Réponses: 8
    Dernier message: 14/08/2006, 22h45
  3. type "file" pour la balise input
    Par fa_say dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 23/09/2005, 15h13
  4. [CSS] Le type hand pour cursor dans une balise AREA
    Par Invité dans le forum Mise en page CSS
    Réponses: 6
    Dernier message: 13/04/2005, 13h33

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo