Bonjour à vous,
j'ai un jeu de données assez conséquent (une bonne douzaine de milliers de ligne sur 8 colonnes) qui me pose quelques problèmes d'analyse ...
Les données ressemblent à ça:
Pour la petite histoire je lâche des bestioles (Tu, Te, Pl) à un temps donné, et je les compte toutes les semaines (de la séance 1 à la 12). J'obtiens des nombres de bestioles (nTu, nTe, nPl) en fonction d'un traitement (Dsite, 3 modalités), de blocs (22 blocs), de la date (12 séances de comptage), et pour nPl (un prédateur) en fonction de Te et Tu (des proies).
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 Prey Dsite Block Seance nTu nTe nPl Tu C 13 1 0 NA NA Tu C 13 1 0 NA NA Tu C 13 1 0 NA NA Tu C 13 1 0 NA NA Tu C 13 1 9 NA NA Tu C 13 1 0 NA NA Tu C 13 1 0 NA NA Tu C 13 1 0 NA NA Tu C 13 1 3 NA NA
J'ai voulu faire des glm pour tester les effets globaux de chacun des facteurs dont voici un résultat :
Je n'ai même pas encore regardé les interactions, mais j'ai déjà plusieurs questions par rapport à ça :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46 Call: glm(formula = nTu ~ Dsite + Block + Seance, family = poisson, data = don) Deviance Residuals: Min 1Q Median 3Q Max -16.3646 -5.0973 -2.5590 -0.7034 61.5328 Coefficients: (2 not defined because of singularities) Estimate Std. Error z value Pr(>|z|) (Intercept) -0.26557 0.07076 -3.753 0.000175 *** Dsite2 -1.21969 0.02251 -54.195 < 2e-16 *** Dsite3 -0.09802 0.01570 -6.243 4.3e-10 *** Block10 0.37806 0.02571 14.703 < 2e-16 *** Block11 0.50005 0.01382 36.178 < 2e-16 *** Block12 -0.21879 0.01729 -12.657 < 2e-16 *** Block13 0.67381 0.01341 50.254 < 2e-16 *** Block14 -0.29535 0.01737 -16.999 < 2e-16 *** Block15 0.25459 0.02645 9.624 < 2e-16 *** Block19 0.50460 0.01397 36.118 < 2e-16 *** Block2 NA NA NA NA Block20 -0.35551 0.01773 -20.053 < 2e-16 *** Block21 0.08857 0.02736 3.238 0.001205 ** Block3 NA NA NA NA Seance10 4.41525 0.07047 62.650 < 2e-16 *** Seance11 4.37846 0.07052 62.084 < 2e-16 *** Seance12 3.44733 0.07136 48.311 < 2e-16 *** Seance2 0.11123 0.09637 1.154 0.248449 Seance3 1.84505 0.07534 24.489 < 2e-16 *** Seance4 1.99443 0.07463 26.726 < 2e-16 *** Seance5 3.25810 0.07135 45.665 < 2e-16 *** Seance6 3.60986 0.07095 50.875 < 2e-16 *** Seance7 4.04751 0.07062 57.312 < 2e-16 *** Seance8 3.50155 0.07106 49.275 < 2e-16 *** Seance9 4.48886 0.07041 63.757 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 274276 on 3523 degrees of freedom Residual deviance: 174491 on 3501 degrees of freedom (3676 observations deleted due to missingness) AIC: 183324 Number of Fisher Scoring iterations: 7
1. C'est bien d'avoir les résultats pour chaque séance et chaque bloc etc ... mais j'aurais aimé avoir les effets globaux (un effet bloc, un effet Dsite ...), qu'est-ce qu'il faut que je fasse pour ça ? On m'a dit de donner des valeurs réelles à mes facteurs et pas des lettres, et j'obtiens la même chose ... (c'est d'ailleurs ce résultats qui est présenté).
2. Qu'est-ce que c'est exactement ce message de 2 facteurs non définis à cause de "singularités" ??? Est-ce que cela veut dire que j'ai potentiellement des chiffres aberrants quelque part ? (sachant que mes comptages varient de 0 à 700 et qu'il y a des blocs très différents .... c'est pour ça que je teste ...)
3. Est-ce que j'ai un moyen de diminuer ma deviance résiduelle ou est-ce que ce chiffres énorme est normal vu le nombre de données ?
Merci beaucoup à vous !
Partager