Bonjour à vous,

j'ai un jeu de données assez conséquent (une bonne douzaine de milliers de ligne sur 8 colonnes) qui me pose quelques problèmes d'analyse ...

Les données ressemblent à ça:

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
Prey	Dsite	Block	Seance	nTu	nTe	nPl
Tu	C	13	1	0	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	9	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	0	NA	NA
Tu	C	13	1	3	NA	NA
Pour la petite histoire je lâche des bestioles (Tu, Te, Pl) à un temps donné, et je les compte toutes les semaines (de la séance 1 à la 12). J'obtiens des nombres de bestioles (nTu, nTe, nPl) en fonction d'un traitement (Dsite, 3 modalités), de blocs (22 blocs), de la date (12 séances de comptage), et pour nPl (un prédateur) en fonction de Te et Tu (des proies).

J'ai voulu faire des glm pour tester les effets globaux de chacun des facteurs dont voici un résultat :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
Call:
glm(formula = nTu ~ Dsite + Block + Seance, family = poisson, 
    data = don)
 
Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-16.3646   -5.0973   -2.5590   -0.7034   61.5328  
 
Coefficients: (2 not defined because of singularities)
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.26557    0.07076  -3.753 0.000175 ***
Dsite2      -1.21969    0.02251 -54.195  < 2e-16 ***
Dsite3      -0.09802    0.01570  -6.243  4.3e-10 ***
Block10      0.37806    0.02571  14.703  < 2e-16 ***
Block11      0.50005    0.01382  36.178  < 2e-16 ***
Block12     -0.21879    0.01729 -12.657  < 2e-16 ***
Block13      0.67381    0.01341  50.254  < 2e-16 ***
Block14     -0.29535    0.01737 -16.999  < 2e-16 ***
Block15      0.25459    0.02645   9.624  < 2e-16 ***
Block19      0.50460    0.01397  36.118  < 2e-16 ***
Block2            NA         NA      NA       NA    
Block20     -0.35551    0.01773 -20.053  < 2e-16 ***
Block21      0.08857    0.02736   3.238 0.001205 ** 
Block3            NA         NA      NA       NA    
Seance10     4.41525    0.07047  62.650  < 2e-16 ***
Seance11     4.37846    0.07052  62.084  < 2e-16 ***
Seance12     3.44733    0.07136  48.311  < 2e-16 ***
Seance2      0.11123    0.09637   1.154 0.248449    
Seance3      1.84505    0.07534  24.489  < 2e-16 ***
Seance4      1.99443    0.07463  26.726  < 2e-16 ***
Seance5      3.25810    0.07135  45.665  < 2e-16 ***
Seance6      3.60986    0.07095  50.875  < 2e-16 ***
Seance7      4.04751    0.07062  57.312  < 2e-16 ***
Seance8      3.50155    0.07106  49.275  < 2e-16 ***
Seance9      4.48886    0.07041  63.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
(Dispersion parameter for poisson family taken to be 1)
 
    Null deviance: 274276  on 3523  degrees of freedom
Residual deviance: 174491  on 3501  degrees of freedom
  (3676 observations deleted due to missingness)
AIC: 183324
 
Number of Fisher Scoring iterations: 7
Je n'ai même pas encore regardé les interactions, mais j'ai déjà plusieurs questions par rapport à ça :

1. C'est bien d'avoir les résultats pour chaque séance et chaque bloc etc ... mais j'aurais aimé avoir les effets globaux (un effet bloc, un effet Dsite ...), qu'est-ce qu'il faut que je fasse pour ça ? On m'a dit de donner des valeurs réelles à mes facteurs et pas des lettres, et j'obtiens la même chose ... (c'est d'ailleurs ce résultats qui est présenté).

2. Qu'est-ce que c'est exactement ce message de 2 facteurs non définis à cause de "singularités" ??? Est-ce que cela veut dire que j'ai potentiellement des chiffres aberrants quelque part ? (sachant que mes comptages varient de 0 à 700 et qu'il y a des blocs très différents .... c'est pour ça que je teste ...)

3. Est-ce que j'ai un moyen de diminuer ma deviance résiduelle ou est-ce que ce chiffres énorme est normal vu le nombre de données ?

Merci beaucoup à vous !