Bonjour,
je fais pour la première fois une régression logistique avec R (sur des pourcentages de mortalité de bestioles que j'étudie), et j'ai un problème quant à l'interprétation des sorties ...
L'explication du jeu de données est assez simple : des espèces (species) dont les oeufs éclosent (hatched) ou n'éclosent pas (not_hatched) en fonction de l'humidité (rh).
Les questions posées à partir de ces données sont simples également:
- est-ce que l'humidité influence la mortalité ?
- est-ce que les espèces influencent la mortalité (est-ce qu'il y a des différences de tolérance à l'humidité entre les espèces ?) ?
- y a-t-il des interactions entre ces facteurs ?
Sur les données ci-dessus, j'ai simplement codé deux glm, un prenant en compte les effets séparés des espèces et de l'humidité, avec la sortie associée,
et un deuxième avec prenant en compte également non seulement les facteurs séparément mais aussi leurs interactions éventuelles :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27 Call: glm(formula = Y ~ rh + species, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max -3.5598 -1.3498 -0.1212 0.4648 2.7842 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -16.12845 0.80498 -20.036 < 2e-16 *** rh 0.26277 0.01222 21.501 < 2e-16 *** speciesNI 3.10619 0.33508 9.270 < 2e-16 *** speciesPLA 4.88798 0.35582 13.737 < 2e-16 *** speciesPLC 3.20601 0.33542 9.558 < 2e-16 *** speciesPM -1.07958 0.36348 -2.970 0.00298 ** speciesPP -2.29348 0.29515 -7.770 7.82e-15 *** speciesTA 4.93081 0.48496 10.167 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2396.630 on 30 degrees of freedom Residual deviance: 74.329 on 23 degrees of freedom AIC: 159.9 Number of Fisher Scoring iterations: 6
Comme je vous l'ai dit c'est la première fois que je fais ça, et il y a certaines choses dans les sorties que je ne comprends pas ... d'où ces questions :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31 Call: glm(formula = Y ~ species * rh, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max -2.43370 -0.72174 -0.03878 0.00000 1.58765 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.507e+01 3.766e+00 -6.656 2.81e-11 *** speciesNI 1.618e+01 4.041e+00 4.004 6.23e-05 *** speciesPLA 1.558e+01 3.905e+00 3.990 6.61e-05 *** speciesPLC 1.564e+01 3.865e+00 4.045 5.23e-05 *** speciesPM -1.715e+02 3.553e+04 -0.005 0.996149 speciesPP -3.041e+00 5.415e+00 -0.562 0.574381 speciesTA 6.947e+00 6.479e+00 1.072 0.283641 rh 3.998e-01 5.570e-02 7.177 7.15e-13 *** speciesNI:rh -2.194e-01 6.268e-02 -3.500 0.000466 *** speciesPLA:rh -1.765e-01 6.028e-02 -2.928 0.003416 ** speciesPLC:rh -2.100e-01 5.851e-02 -3.589 0.000332 *** speciesPM:rh 2.462e+00 5.150e+02 0.005 0.996185 speciesPP:rh -8.364e-04 7.815e-02 -0.011 0.991461 speciesTA:rh 2.310e-02 1.335e-01 0.173 0.862685 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2396.630 on 30 degrees of freedom Residual deviance: 22.451 on 17 degrees of freedom AIC: 120.02
1) Pourquoi l'espèce AS ne figure-t-elle pas dans les tables de coefficients ?
2) Qu'est-ce que l'(intercept) et que signifie-t-il ?
3) Pourquoi est-ce que je n'obtiens pas les mêmes significativités pour certaines espèces entre la première et la deuxième analyse, et laquelle serait la plus juste selon vous ? (j'opterais intuitivement pour la deuxième qui doit prendre en compte plus de paramètres et a une variance résiduelle plus proche des df)
4) La deuxième analyse induit-elle que certaines espèces (PLA, NI, PLC) montrent des réponses réellement différentes de toutes les autres ?
J'espère que vous aurez un peu de temps à consacrer à ces questions, et je vous en remercie beaucoup par avance !
Partager