Sorties GLM Régression Logistique; redéfinir la "référence"?

**hollowdeadoss** · 08/04/2013, 15h22

Bonjour tout le monde,

Toujours dans mon "problème" de régression logistique j'essaie d'interpréter les sorties de ma régression logistique sous R.

Je n'ai que des variables "qualitatives" explicatives et donc ma variable à prédire (succès/échec).

En sortie de la régression logistique j'ai quelque chose comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
summary(modele.fit)
 
Call:
glm(formula = Y ~ X1+X2+X3+X4+etc., family = binomial, 
    data = datas[, -c(4)])
 
Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-3.09167  -0.51851  -0.01679   0.59240   2.91914  
 
Coefficients:
                            Estimate Std. Error z value Pr(>|z|)    
(Intercept)                   1.6010     0.2809   5.700 1.19e-08 ***
X1_mod2         -0.9508     0.2172  -4.377 1.20e-05 ***
X1_mod3          -1.6465     0.1979  -8.319  < 2e-16 ***
X1_mod4          -3.6901     0.2273 -16.237  < 2e-16 ***
X2_mod2           0.2681     0.1699   1.578  0.11454    
X2_mod3    0.8957     0.1564   5.726 1.03e-08 ***
X3_mod1           0.6566     0.4288   1.531  0.12570    
etc. 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 2772.6  on 1999  degrees of freedom
Residual deviance: 1614.9  on 1980  degrees of freedom
AIC: 1654.9
 
Number of Fisher Scoring iterations: 5

Alors autant avec une seule variable j'arrive à analyser mon "intercept" et les coefficients associés aux autres modalités (on prend la première modalité comme référence et on "compare" les coeff. relativement à cet "intercept").
Mais pour plusieurs variables catégorielles j'ai du mal ... l'intercept "concentre" toutes les premières modalités de chaque variable explicative?

Comment après retrouver les coefficients du modèle, i.e. les "vrais" coefficients béta pour pouvoir les écrire réellement sur papier?

J'avoue je me trouve con là ...

Dois-je (si possible?) forcer R à ne prendre dans la constante QUE les effets constants indépendamment des autres variables pour avoir chaque coefficient? Quelque chose du style glm(Y~0+toutes mes variables)?

Cordialement,

Hollow

**vchouraki** · 08/04/2013, 22h21

Bonjour,

Ça dépend peut-être de votre domaine de recherche mais en épidémiologie par exemple, on n'interprète pas les coefficients d'une variable qualitative en fonction de l'intercept mais en fonction de la catégorie de référence prise pour cette variable. Dans votre exemple, le coefficient de X1_mod2 s'interprète par rapport à X1_mod1. Ceci est valable quelque soit le niveau d'ajustement.

Dans R, les variables qualitatives sont représentées par la classe factor. Par défaut le premier "niveau" du facteur est pris comme référence. Si vous voulez changer de référence d'un factor, vous pouvez utiliser la fonction relevel :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

?relevel

HTH

Vincent

**hollowdeadoss** · 09/04/2013, 10h52

Bonjour Vincent,

Effectivement pour moi aussi l'interprétation dépend de la catégorie de référence de la variable.

Mais du coup dans l'intercept il n'y a que la constante "réelle"? Et chaque "X1_mod2, X2_mod2, etc." sont à interpréter en fonction de X1_mod1, X2_mod1, etc. (respectivement)?

En faisant relevel je vais changer pour la première variable catégorielle mais à priori pas pour les suivantes.

Où je me trompe complètement?

Cordialement et encore merci pour votre réponse,

Hollow

Sorties GLM Régression Logistique; redéfinir la "référence"?

R

Discussions similaires

Partager

Partager