1. #1
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    mai 2012
    Messages
    82
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : mai 2012
    Messages : 82
    Points : 60
    Points
    60

    Par défaut Régression Logistique - Test d'intercations

    Bonjour,
    je présente mon problème :
    je souhaite réaliser une régression logistique et pour ce faire j'ai réaliser des analyse univariées sur mes variables.
    J'ai donc sélectionné les variables qui sont possiblement des "facteurs d'interaction".
    Puis j'en arrive à l'analyse multivariée, j'ai deux question précises :
    J'ai réalisé une sélection de variables en utilisant la méthode du backward selection (descendante).
    Pour ce faire, j'ai éliminé une à une les variables qui avaient une trop forte p_value (tout en regardant que les coefficients - beta - ne varient pas trop).
    Ma première question est la suivante : Quel est le seuil à partir duquel on juge que les coefficients estimés varient "trop" ? 0.20 ? 0.15 ? Et donc dans ce cas là, on conserve la variable qu'on souhaitait retirer même si sa p_value est très forte.

    Exemple, lorsque je supprime la variable statut_tabac (qui est composé des sous-variables indicatrices tabac_1 et tabac_2) :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    /*Modèle complet*/                                                                                                                                                                                             
    proc logistic data=projet.Bonami;                                                                                                                                                                              
    class Hta groupe_bis revasc diabete Class_SEVERITY_0_H4 ;                                                                                                                                                      
    model evol_binaire(ref="1") = Hta groupe_bis revasc tabac1 tabac2 diabete Class_SEVERITY_0_H4;                                                                                                                 
    test tabac1,tabac2;                                                                                                                                                                                            
    run;
    Nom : SAS.png
Affichages : 110
Taille : 15,3 Ko

    le modèle une fois les variables tabac_1 et tabac_2 supprimées :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    /* Modèle sans tabac*/                                                                                                                                                                                         
    proc logistic data=projet.Bonami;                                                                                                                                                                              
    class Hta groupe_bis revasc diabete Class_SEVERITY_0_H4 ;                                                                                                                                                      
    model evol_binaire(ref="1") = Hta groupe_bis revasc diabete Class_SEVERITY_0_H4;                                                                                                                               
    run;
    Nom : SAS.png
Affichages : 103
Taille : 13,0 Ko


    Puis une fois le modèle complet obtenu, je dois vérifier les interactions entre mes variables restantes ? Et là, je ne sais pas comment m'y prendre. Test de Wald ?
    Est-ce que je dois tester une à une les interactions entre chaque couple de variable ? Ou est-ce que je lance le modèle complet avec les interactions et j'enlève une à une les interactions avec les plus fortes p_values ?

    Je vous joins mon code :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    proc logistic data=projet.Bonami;                                                                                                                                                                              
    class Hta groupe_bis revasc Class_SEVERITY_0_H4 ;                                                                                                                                                              
    model evol_binaire(ref="1") = Hta groupe_bis revasc tabac1 tabac2 Class_SEVERITY_0_H4                                                                                                                          
    groupe_bis*Hta groupe_bis*revasc groupe_bis*tabac1 groupe_bis*tabac2 groupe_bis*Class_SEVERITY_0_H4 ;                                                                                                          
    test tabac1,tabac2;                                                                                                                                                                                            
    run;
    Nom : SAS.png
Affichages : 100
Taille : 23,7 Ko

    Merci pour votre aide !

  2. #2
    Membre du Club
    Homme Profil pro
    Biostatisticien
    Inscrit en
    février 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Biostatisticien
    Secteur : Associations - ONG

    Informations forums :
    Inscription : février 2015
    Messages : 23
    Points : 45
    Points
    45

    Par défaut

    Bonjour Khroutchev,

    Je ne suis pas non plus un expert de la régression logistique mais comme tu n'as pas de réponse à ton problème, je me permets de te donner mon humble avis ^^:

    Ma première question est la suivante : Quel est le seuil à partir duquel on juge que les coefficients estimés varient "trop" ? 0.20 ? 0.15 ? Et donc dans ce cas là, on conserve la variable qu'on souhaitait retirer même si sa p_value est très forte.
    Je pense que la définition d'un seuil de variation relative est objective ! Je m'explique : Globalement on dit qu'avec 15-20% de variation relative il faut faire attention aux "facteurs modificateurs d'effets" (et donc garder la variable dans le modèle même si sa p_value est forte). Mais je pense qu'en fait ce qui doit primer sur tout ces seuils "prédéfinis", c'est ce que cela représente pour toi, dans ton cas d'étude : c'est l'effet de ta variable groupe_bis qui semble le plus varier, certes c'est environ 30% de variation ok mais cela correspond à une variation de 6% à 4% (c'est donc une variation d'un effet quasi-nul, et d'ailleurs la p_valeur de la variable groupe_bis n'est pas significative)...

    Autre chose, pour moi entre tes 2 premières estimations de paramètres, tu n'as pas enlevé 1 mais 2 variables (tabac_1 et tabac_2). A mon sens l’intérêt de créer des variables indicatrices c’est justement de pourvoir traiter séparément les différentes modalités du statut tabagique...

    Puis une fois le modèle complet obtenu, je dois vérifier les interactions entre mes variables restantes ? Et là, je ne sais pas comment m'y prendre. Test de Wald ?
    Est-ce que je dois tester une à une les interactions entre chaque couple de variable ? Ou est-ce que je lance le modèle complet avec les interactions et j'enlève une à une les interactions avec les plus fortes p_values ?
    Pour tester les interactions je fonctionne de la même manière que pour la sélection des facteurs principaux. Donc une fois que j'ai mon modèle complet, j'ajoute les interactions dans le modèle ce qui donnera lieu à l'estimation de leur paramètre, ainsi qu'a leur significativité. Tu as sélectionné tes effets principaux avec la méthode backward, continues de sélectionner tes interactions avec cette même méthode (donc à partir du même tableau "estimations par analyse du maximum de vraisemblance", et des p_value qui s'y trouve).
    Personnellement quand j'introduis les interactions dans un modèle, je lance le modèle complet avec toutes les interactions possible, puis je les sélectionne au fur et à mesure. Pour tester toutes les interactions d'un coup quand tu as déjà beaucoup de variable, il y a une petite astuce qui t'éviteras d'écrire à la main toute les interactions :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    proc logistic data=projet.Bonami plots=all;                                                                                                                                                                              
    class Hta groupe_bis revasc Class_SEVERITY_0_H4 ;                                                                                                                                                              
    model evol_binaire(ref="1") = Hta | groupe_bis | revasc | tabac1 | tabac2 | Class_SEVERITY_0_H4 @2 /*pour tester les interactions de niveau 2*/ / selection=backward details;                                                                                                          
    test tabac1,tabac2;                                                                                                                                                                                            
    run;
    J'ai aussi rajouté l'option plots=all qui te permettra d'avoir un rendu visuel, notamment des odds-ratio, plutôt sympa...^^

    Voila je ne suis pas sûr de t'avoir vraiment aidé, mais disons qu'au moins cela aura le mérite de relancer la conversation, et peut etre de finir par y attirer les expert du domaine

    Bon courage et bonne continuation !

    Guyguy

Discussions similaires

  1. Réponses: 1
    Dernier message: 26/07/2012, 18h07
  2. Régression logistique : test type 3
    Par joyeux_lapin13 dans le forum SAS STAT
    Réponses: 2
    Dernier message: 21/05/2010, 11h03
  3. régression logistique et graphiques
    Par ebongue dans le forum SAS STAT
    Réponses: 4
    Dernier message: 16/06/2009, 13h54
  4. régression logistique SAS
    Par sandrine_87 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 09/02/2009, 21h01
  5. Réponses: 1
    Dernier message: 17/04/2007, 16h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo