Glm (poisson) : problème de multivariable
Bonjour à vous,
j'ai un jeu de données assez conséquent (une bonne douzaine de milliers de ligne sur 8 colonnes) qui me pose quelques problèmes d'analyse ...
Les données ressemblent à ça:
Code:
1 2 3 4 5 6 7 8 9 10
| Prey Dsite Block Seance nTu nTe nPl
Tu C 13 1 0 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 9 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 0 NA NA
Tu C 13 1 3 NA NA |
Pour la petite histoire je lâche des bestioles (Tu, Te, Pl) à un temps donné, et je les compte toutes les semaines (de la séance 1 à la 12). J'obtiens des nombres de bestioles (nTu, nTe, nPl) en fonction d'un traitement (Dsite, 3 modalités), de blocs (22 blocs), de la date (12 séances de comptage), et pour nPl (un prédateur) en fonction de Te et Tu (des proies).
J'ai voulu faire des glm pour tester les effets globaux de chacun des facteurs dont voici un résultat :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
| Call:
glm(formula = nTu ~ Dsite + Block + Seance, family = poisson,
data = don)
Deviance Residuals:
Min 1Q Median 3Q Max
-16.3646 -5.0973 -2.5590 -0.7034 61.5328
Coefficients: (2 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.26557 0.07076 -3.753 0.000175 ***
Dsite2 -1.21969 0.02251 -54.195 < 2e-16 ***
Dsite3 -0.09802 0.01570 -6.243 4.3e-10 ***
Block10 0.37806 0.02571 14.703 < 2e-16 ***
Block11 0.50005 0.01382 36.178 < 2e-16 ***
Block12 -0.21879 0.01729 -12.657 < 2e-16 ***
Block13 0.67381 0.01341 50.254 < 2e-16 ***
Block14 -0.29535 0.01737 -16.999 < 2e-16 ***
Block15 0.25459 0.02645 9.624 < 2e-16 ***
Block19 0.50460 0.01397 36.118 < 2e-16 ***
Block2 NA NA NA NA
Block20 -0.35551 0.01773 -20.053 < 2e-16 ***
Block21 0.08857 0.02736 3.238 0.001205 **
Block3 NA NA NA NA
Seance10 4.41525 0.07047 62.650 < 2e-16 ***
Seance11 4.37846 0.07052 62.084 < 2e-16 ***
Seance12 3.44733 0.07136 48.311 < 2e-16 ***
Seance2 0.11123 0.09637 1.154 0.248449
Seance3 1.84505 0.07534 24.489 < 2e-16 ***
Seance4 1.99443 0.07463 26.726 < 2e-16 ***
Seance5 3.25810 0.07135 45.665 < 2e-16 ***
Seance6 3.60986 0.07095 50.875 < 2e-16 ***
Seance7 4.04751 0.07062 57.312 < 2e-16 ***
Seance8 3.50155 0.07106 49.275 < 2e-16 ***
Seance9 4.48886 0.07041 63.757 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 274276 on 3523 degrees of freedom
Residual deviance: 174491 on 3501 degrees of freedom
(3676 observations deleted due to missingness)
AIC: 183324
Number of Fisher Scoring iterations: 7 |
Je n'ai même pas encore regardé les interactions, mais j'ai déjà plusieurs questions par rapport à ça :
1. C'est bien d'avoir les résultats pour chaque séance et chaque bloc etc ... mais j'aurais aimé avoir les effets globaux (un effet bloc, un effet Dsite ...), qu'est-ce qu'il faut que je fasse pour ça ? On m'a dit de donner des valeurs réelles à mes facteurs et pas des lettres, et j'obtiens la même chose ... (c'est d'ailleurs ce résultats qui est présenté).
2. Qu'est-ce que c'est exactement ce message de 2 facteurs non définis à cause de "singularités" ??? Est-ce que cela veut dire que j'ai potentiellement des chiffres aberrants quelque part ? (sachant que mes comptages varient de 0 à 700 et qu'il y a des blocs très différents .... c'est pour ça que je teste ...)
3. Est-ce que j'ai un moyen de diminuer ma deviance résiduelle ou est-ce que ce chiffres énorme est normal vu le nombre de données ?
Merci beaucoup à vous !