Bonjour,

je fais pour la première fois une régression logistique avec R (sur des pourcentages de mortalité de bestioles que j'étudie), et j'ai un problème quant à l'interprétation des sorties ...

L'explication du jeu de données est assez simple : des espèces (species) dont les oeufs éclosent (hatched) ou n'éclosent pas (not_hatched) en fonction de l'humidité (rh).

Les questions posées à partir de ces données sont simples également:

- est-ce que l'humidité influence la mortalité ?
- est-ce que les espèces influencent la mortalité (est-ce qu'il y a des différences de tolérance à l'humidité entre les espèces ?) ?
- y a-t-il des interactions entre ces facteurs ?

Sur les données ci-dessus, j'ai simplement codé deux glm, un prenant en compte les effets séparés des espèces et de l'humidité, avec la sortie associée,

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Call:
glm(formula = Y ~ rh + species, family = binomial)
 
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.5598  -1.3498  -0.1212   0.4648   2.7842  
 
Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -16.12845    0.80498 -20.036  < 2e-16 ***
rh            0.26277    0.01222  21.501  < 2e-16 ***
speciesNI     3.10619    0.33508   9.270  < 2e-16 ***
speciesPLA    4.88798    0.35582  13.737  < 2e-16 ***
speciesPLC    3.20601    0.33542   9.558  < 2e-16 ***
speciesPM    -1.07958    0.36348  -2.970  0.00298 ** 
speciesPP    -2.29348    0.29515  -7.770 7.82e-15 ***
speciesTA     4.93081    0.48496  10.167  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 2396.630  on 30  degrees of freedom
Residual deviance:   74.329  on 23  degrees of freedom
AIC: 159.9
 
Number of Fisher Scoring iterations: 6
et un deuxième avec prenant en compte également non seulement les facteurs séparément mais aussi leurs interactions éventuelles :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Call:
glm(formula = Y ~ species * rh, family = binomial)
 
Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.43370  -0.72174  -0.03878   0.00000   1.58765  
 
Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -2.507e+01  3.766e+00  -6.656 2.81e-11 ***
speciesNI      1.618e+01  4.041e+00   4.004 6.23e-05 ***
speciesPLA     1.558e+01  3.905e+00   3.990 6.61e-05 ***
speciesPLC     1.564e+01  3.865e+00   4.045 5.23e-05 ***
speciesPM     -1.715e+02  3.553e+04  -0.005 0.996149    
speciesPP     -3.041e+00  5.415e+00  -0.562 0.574381    
speciesTA      6.947e+00  6.479e+00   1.072 0.283641    
rh             3.998e-01  5.570e-02   7.177 7.15e-13 ***
speciesNI:rh  -2.194e-01  6.268e-02  -3.500 0.000466 ***
speciesPLA:rh -1.765e-01  6.028e-02  -2.928 0.003416 ** 
speciesPLC:rh -2.100e-01  5.851e-02  -3.589 0.000332 ***
speciesPM:rh   2.462e+00  5.150e+02   0.005 0.996185    
speciesPP:rh  -8.364e-04  7.815e-02  -0.011 0.991461    
speciesTA:rh   2.310e-02  1.335e-01   0.173 0.862685    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 2396.630  on 30  degrees of freedom
Residual deviance:   22.451  on 17  degrees of freedom
AIC: 120.02
Comme je vous l'ai dit c'est la première fois que je fais ça, et il y a certaines choses dans les sorties que je ne comprends pas ... d'où ces questions :

1) Pourquoi l'espèce AS ne figure-t-elle pas dans les tables de coefficients ?
2) Qu'est-ce que l'(intercept) et que signifie-t-il ?
3) Pourquoi est-ce que je n'obtiens pas les mêmes significativités pour certaines espèces entre la première et la deuxième analyse, et laquelle serait la plus juste selon vous ? (j'opterais intuitivement pour la deuxième qui doit prendre en compte plus de paramètres et a une variance résiduelle plus proche des df)
4) La deuxième analyse induit-elle que certaines espèces (PLA, NI, PLC) montrent des réponses réellement différentes de toutes les autres ?

J'espère que vous aurez un peu de temps à consacrer à ces questions, et je vous en remercie beaucoup par avance !