IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Sorties GLM Régression Logistique; redéfinir la "référence"?


Sujet :

R

  1. #1
    Membre du Club
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Points : 58
    Points
    58
    Par défaut Sorties GLM Régression Logistique; redéfinir la "référence"?
    Bonjour tout le monde,

    Toujours dans mon "problème" de régression logistique j'essaie d'interpréter les sorties de ma régression logistique sous R.

    Je n'ai que des variables "qualitatives" explicatives et donc ma variable à prédire (succès/échec).

    En sortie de la régression logistique j'ai quelque chose comme ça:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    summary(modele.fit)
     
    Call:
    glm(formula = Y ~ X1+X2+X3+X4+etc., family = binomial, 
        data = datas[, -c(4)])
     
    Deviance Residuals: 
         Min        1Q    Median        3Q       Max  
    -3.09167  -0.51851  -0.01679   0.59240   2.91914  
     
    Coefficients:
                                Estimate Std. Error z value Pr(>|z|)    
    (Intercept)                   1.6010     0.2809   5.700 1.19e-08 ***
    X1_mod2         -0.9508     0.2172  -4.377 1.20e-05 ***
    X1_mod3          -1.6465     0.1979  -8.319  < 2e-16 ***
    X1_mod4          -3.6901     0.2273 -16.237  < 2e-16 ***
    X2_mod2           0.2681     0.1699   1.578  0.11454    
    X2_mod3    0.8957     0.1564   5.726 1.03e-08 ***
    X3_mod1           0.6566     0.4288   1.531  0.12570    
    etc. 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
     
    (Dispersion parameter for binomial family taken to be 1)
     
        Null deviance: 2772.6  on 1999  degrees of freedom
    Residual deviance: 1614.9  on 1980  degrees of freedom
    AIC: 1654.9
     
    Number of Fisher Scoring iterations: 5
    Alors autant avec une seule variable j'arrive à analyser mon "intercept" et les coefficients associés aux autres modalités (on prend la première modalité comme référence et on "compare" les coeff. relativement à cet "intercept").
    Mais pour plusieurs variables catégorielles j'ai du mal ... l'intercept "concentre" toutes les premières modalités de chaque variable explicative?

    Comment après retrouver les coefficients du modèle, i.e. les "vrais" coefficients béta pour pouvoir les écrire réellement sur papier?

    J'avoue je me trouve con là ...
    Dois-je (si possible?) forcer R à ne prendre dans la constante QUE les effets constants indépendamment des autres variables pour avoir chaque coefficient? Quelque chose du style glm(Y~0+toutes mes variables)?

    Cordialement,

    Hollow

  2. #2
    Membre confirmé
    Homme Profil pro
    MCU
    Inscrit en
    Juillet 2010
    Messages
    185
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : MCU
    Secteur : Santé

    Informations forums :
    Inscription : Juillet 2010
    Messages : 185
    Points : 486
    Points
    486
    Par défaut
    Bonjour,

    Ça dépend peut-être de votre domaine de recherche mais en épidémiologie par exemple, on n'interprète pas les coefficients d'une variable qualitative en fonction de l'intercept mais en fonction de la catégorie de référence prise pour cette variable. Dans votre exemple, le coefficient de X1_mod2 s'interprète par rapport à X1_mod1. Ceci est valable quelque soit le niveau d'ajustement.

    Dans R, les variables qualitatives sont représentées par la classe factor. Par défaut le premier "niveau" du facteur est pris comme référence. Si vous voulez changer de référence d'un factor, vous pouvez utiliser la fonction relevel :

    HTH

    Vincent

  3. #3
    Membre du Club
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Points : 58
    Points
    58
    Par défaut
    Bonjour Vincent,

    Effectivement pour moi aussi l'interprétation dépend de la catégorie de référence de la variable.

    Mais du coup dans l'intercept il n'y a que la constante "réelle"? Et chaque "X1_mod2, X2_mod2, etc." sont à interpréter en fonction de X1_mod1, X2_mod1, etc. (respectivement)?

    En faisant relevel je vais changer pour la première variable catégorielle mais à priori pas pour les suivantes.

    Où je me trompe complètement?

    Cordialement et encore merci pour votre réponse,

    Hollow

Discussions similaires

  1. Régression logistique, modalité de référence
    Par sophie_2525 dans le forum SAS STAT
    Réponses: 6
    Dernier message: 10/06/2012, 11h17
  2. régression logistique SAS
    Par sandrine_87 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 09/02/2009, 21h01
  3. Réponses: 1
    Dernier message: 17/04/2007, 16h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo