Interprétation GLM et question à propos

**nemesistat** · 29/07/2019, 12h57

Bonjour à tous,

J'ai donc un fichier de données qui est le suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
 
 data
    storage variete tunnel brix_chair
1        PS       S     26       13.9
2        PS       S     26       15.2
3        PS       S     26       16.2
4        PS       S     26       15.3
5        PS       S     26       14.6
6        PS       S     26       17.0
7        PS       S     26       16.5
8       MT5       S     26       14.6
9       MT5       S     26       15.8
10      MT5       S     26       16.6

Donc on a storage en 6 niveaux, tunnel à 2 et variete a 2 aussi.
Je souhaite savoir quel traitement de stockage modifie le moins mon brix, je m'explique, j'ai pas de stockage (PS) et 5 autres modalités, voir du coup quellle modalité se rapproche le plus de PS.
Aussi je souhaite savoir dans quel stockage nous avons le brix le plus élevé, dans quel tunnel et dans quelle variété, le sens de mes facteurs si je ne dis pas de bêtises.

On m'a conseillé un GLM je l'ai exécuté et pu obtenir cette formule avec la commande summary juste après :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
 
> glm.3 <- glm(formula = brix_chair ~ storage + tunnel + variete + storage:tunnel + 
+       tunnel:variete, family = gaussian("identity"), data = data)
> summary(glm.3)
 
Call:
glm(formula = brix_chair ~ storage + tunnel + variete + storage:tunnel + 
    tunnel:variete, family = gaussian("identity"), data = data)
 
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.0931  -0.7710   0.0721   0.7629   3.2839  
 
Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           16.5633     0.3208  51.635  < 2e-16 ***
storageBT5            -1.8472     0.4753  -3.886 0.000150 ***
storageMT12           -1.4314     0.3904  -3.666 0.000337 ***
storageMT5            -0.2898     0.4899  -0.592 0.554939    
storageMTBT           -1.5967     0.7475  -2.136 0.034244 *  
storagePS             -0.6395     0.3864  -1.655 0.099969 .  
tunnel26              -1.0068     0.4556  -2.210 0.028577 *  
varieteS              -0.7307     0.2830  -2.582 0.010738 *  
storageBT5:tunnel26    2.2972     0.6300   3.646 0.000362 ***
storageMT12:tunnel26  -0.0177     0.5796  -0.031 0.975684    
storageMT5:tunnel26    0.5632     0.6455   0.872 0.384284    
storageMTBT:tunnel26   1.1167     0.8576   1.302 0.194802    
storagePS:tunnel26     0.4422     0.5662   0.781 0.435910    
tunnel26:varieteS      0.7746     0.3751   2.065 0.040588 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for gaussian family taken to be 1.367656)
 
    Null deviance: 287.33  on 169  degrees of freedom
Residual deviance: 213.35  on 156  degrees of freedom
AIC: 551.06
 
Number of Fisher Scoring iterations: 2

Donc j'aimerai avoir des précisions sur cette sortie, pourquoi met-t-il qu'un seul niveau de tunnel ? Il n'y a que le 26
Même chose pour la variété, il n'y a que la S.

Ma dernière question est de savoir ce que signifie les p-valeurs, si elle est très significative cela veut dire qu'il y a beaucoup de brix dans cette modalité ? Ou que cette modalité est significative pour le modèle et du coup quelle est l'interprétation derrière significative ?

Au niveau des interactions entre facteurs aussi quelles interprétations pourrait-on faire ?

Si vous avez une idée je suis preneur je suis totalement débutant dans ce type de sortie R.
Bien à vous,
NS

**faubry** · 01/08/2019, 17h53

1) En utilisant

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

family = gaussian("identity")

, il n'y a aucune différence entre l'utilisation de glm et de lm.

2) Pour répondre à ta question, summary ne donne pas la valeur des niveaux mais la valeur des coefficients calculés par la fonction, c'est-à-dire des contrastes. Pour un facteur à N niveaux, il y a N-1 contrastes indépendants, c'est le nombre de degrés de liberté du calcul. Par défaut, R utilise ce qui est improprement appelé le contraste 'traitement', donc les coefficients calculés sont les différences entre le N - 1 derniers niveaux et le premier niveau. Par défaut, dans R les niveaux sont rangés dans l'ordre lexicographique. De ce fait, tu as 5 valeurs de storage qui est, par exemple pour storageBT5 le contraste entre le niveau BT5 et le niveau dont le nom est le premier dans l'ordre lexicographique. C'est la même logique qui préside pour tunnel et variete. Cette logique est aussi applicable aux interactions. Si tu veux les valeurs des niveaux, il faut les calculer en utilisant par exemple, les fonctions du package emmeans.

**nemesistat** · 02/08/2019, 08h54

Merci d'avoir éclairci ce point cela me permet de mieux comprendre

Bien à toi
NS

Interprétation GLM et question à propos

R

Discussions similaires

Partager

Partager