Interprétation sorties glm (binomial)
Bonjour,
je fais pour la première fois une régression logistique avec R (sur des pourcentages de mortalité de bestioles que j'étudie), et j'ai un problème quant à l'interprétation des sorties ...
L'explication du jeu de données est assez simple : des espèces (species) dont les oeufs éclosent (hatched) ou n'éclosent pas (not_hatched) en fonction de l'humidité (rh).
Les questions posées à partir de ces données sont simples également:
- est-ce que l'humidité influence la mortalité ?
- est-ce que les espèces influencent la mortalité (est-ce qu'il y a des différences de tolérance à l'humidité entre les espèces ?) ?
- y a-t-il des interactions entre ces facteurs ?
Sur les données ci-dessus, j'ai simplement codé deux glm, un prenant en compte les effets séparés des espèces et de l'humidité, avec la sortie associée,
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| Call:
glm(formula = Y ~ rh + species, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.5598 -1.3498 -0.1212 0.4648 2.7842
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -16.12845 0.80498 -20.036 < 2e-16 ***
rh 0.26277 0.01222 21.501 < 2e-16 ***
speciesNI 3.10619 0.33508 9.270 < 2e-16 ***
speciesPLA 4.88798 0.35582 13.737 < 2e-16 ***
speciesPLC 3.20601 0.33542 9.558 < 2e-16 ***
speciesPM -1.07958 0.36348 -2.970 0.00298 **
speciesPP -2.29348 0.29515 -7.770 7.82e-15 ***
speciesTA 4.93081 0.48496 10.167 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2396.630 on 30 degrees of freedom
Residual deviance: 74.329 on 23 degrees of freedom
AIC: 159.9
Number of Fisher Scoring iterations: 6 |
et un deuxième avec prenant en compte également non seulement les facteurs séparément mais aussi leurs interactions éventuelles :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
| Call:
glm(formula = Y ~ species * rh, family = binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.43370 -0.72174 -0.03878 0.00000 1.58765
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.507e+01 3.766e+00 -6.656 2.81e-11 ***
speciesNI 1.618e+01 4.041e+00 4.004 6.23e-05 ***
speciesPLA 1.558e+01 3.905e+00 3.990 6.61e-05 ***
speciesPLC 1.564e+01 3.865e+00 4.045 5.23e-05 ***
speciesPM -1.715e+02 3.553e+04 -0.005 0.996149
speciesPP -3.041e+00 5.415e+00 -0.562 0.574381
speciesTA 6.947e+00 6.479e+00 1.072 0.283641
rh 3.998e-01 5.570e-02 7.177 7.15e-13 ***
speciesNI:rh -2.194e-01 6.268e-02 -3.500 0.000466 ***
speciesPLA:rh -1.765e-01 6.028e-02 -2.928 0.003416 **
speciesPLC:rh -2.100e-01 5.851e-02 -3.589 0.000332 ***
speciesPM:rh 2.462e+00 5.150e+02 0.005 0.996185
speciesPP:rh -8.364e-04 7.815e-02 -0.011 0.991461
speciesTA:rh 2.310e-02 1.335e-01 0.173 0.862685
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2396.630 on 30 degrees of freedom
Residual deviance: 22.451 on 17 degrees of freedom
AIC: 120.02 |
Comme je vous l'ai dit c'est la première fois que je fais ça, et il y a certaines choses dans les sorties que je ne comprends pas ... d'où ces questions :
1) Pourquoi l'espèce AS ne figure-t-elle pas dans les tables de coefficients ?
2) Qu'est-ce que l'(intercept) et que signifie-t-il ?
3) Pourquoi est-ce que je n'obtiens pas les mêmes significativités pour certaines espèces entre la première et la deuxième analyse, et laquelle serait la plus juste selon vous ? (j'opterais intuitivement pour la deuxième qui doit prendre en compte plus de paramètres et a une variance résiduelle plus proche des df)
4) La deuxième analyse induit-elle que certaines espèces (PLA, NI, PLC) montrent des réponses réellement différentes de toutes les autres ?
J'espère que vous aurez un peu de temps à consacrer à ces questions, et je vous en remercie beaucoup par avance !