lme4 message d'erreur

**faubry** · 15/07/2019, 09h51

Pour le 1), tout d'abord, qui dit facteur aléatoire dit que toutes les occurrences du même niveau de ce facteur sont considérées comme interchangeables, que les différences ne proviennent que de fluctuations statistiques de mesure et que les niveaux ne sont qu'un échantillon des niveaux possibles. C'est le cas d'un individu dans un groupe homogène de grande dimension. On ne choisit que quelques individus mais on considère qu'on obtiendrait les mêmes résultats avec d'autres individus. De plus, le choix d'utiliser un facteur comme facteur aléatoire signifie qu'on ne s'intéresse pas aux caractéristiques de l'individu mais globalement à celle du groupe et qu'on veut corriger l'estimation de ce groupe des fluctuations individuelles. Suis-je clair ?

De ce fait tes choix vont dépendre de l'hypothèse que tu testes et donc des individus (décrits par une combinaison des 4 facteurs qui sont traitement, field.treatment, annee et periode) que tu considères interchangeables. Ceci définit ton plan intra. De ce que je comprends, tu cherches des différences entre variétés, c'est donc un facteur fixe. C'est là où cela se corse. A ce niveau, quels autres facteurs définissent le plan intra : il peut y en avoir zéro (donc pas besoin d'utiliser lmer) à 4. La réponse à cette question permettra de définir le facteur de regroupement, c'est-à-dire quels individus ont le même ID. Cela peut aller de la variété à une combinaison des 4 facteurs Cependant, il faut déterminer lesquels de ces facteurs définissent réellement un plan intra et lesquels ne sont que des répétitions de la mesure.

Je m'explique par un exemple bidon, je fais un test dont je mesure l'effet mais je considère que ce test, une fois réalisé, ne change pas la nature de l'individu sur des individus de plusieurs groupes (facteur G) dans plusieurs conditions expérimentales (C) et je le répète plusieurs fois (F) sur chaque individu. F est donc un facteur de regroupement.
Maintenant, si je considère que C définit un plan intra, j'aurais un data.frame 'large' (wide) dont les colonnes seront : mesure.cdn1, mesure.cdn2 ... G F que je pourrais transformer en un data.frame long : mesure C G F ID.individu où ID.individu est le même pour chaque ligne du data.frame large. De ce fait, le formule mixte devient : mesure ~ C * G + (1 | ID.individu) + (1 | ID.individu:F)
Si par contre, C est définit un plan inter, alors le data.frame est mesure C G F et la formule est : mesure ~ C * G + (1 | F)

Donc seul le design de l'expérience et tes hypothèses peuvent répondre à la question. Dans le premier cas, tester si (1 | ID.individu:F) apporte quelque chose est possible mais la procédure est différente de celle que je t'ai donnée qui est faite pour tester des modèles fixes emboîtés. Si tu en as besoin, je la donnerai mais ne la met pas ici car elle est plus complexe.

Pour le 3), anova indique qu'en réalité le test doit se faire avec l'approche ML au lieu de l'approche REML qui est celle par défaut et que pour calculer la différence, anova a reestimé ces modèles avec cette approche. D'après le résultat brut, il y aurait une différence significative mais en regardant les AIC (ou les déviances) et le nombre de ddl des modèles, je n'en suis pas très convaincu. En effet, comme le nombre de ddl est important, la différence pourrait n'être qu'un artefact statistique puisqu'on peut montrer que dans une analyse statistique on peut toujours trouver un nombre suffisant d'individus (ou de ddl) pour trouver une différence significative entre groupe, aussi petite que cette différence soit.

Le plus dur dans une étude statistique est la définition du plan d'expérience et donc des hypothèses a priori (c'est-à-dire la réflexion amont) puis la discussion des résultat (réflexion aval), l'analyse statistique elle-même est simple, les procédures découlant du plan d'expérience et des hypothèses.

**Margotte02** · 15/07/2019, 10h31

Pour le 1), tout d'abord, qui dit facteur aléatoire dit que toutes les occurrences du même niveau de ce facteur sont considérées comme interchangeables, que les différences ne proviennent que de fluctuations statistiques de mesure et que les niveaux ne sont qu'un échantillon des niveaux possibles. C'est le cas d'un individu dans un groupe homogène de grande dimension. On ne choisit que quelques individus mais on considère qu'on obtiendrait les mêmes résultats avec d'autres individus. De plus, le choix d'utiliser un facteur comme facteur aléatoire signifie qu'on ne s'intéresse pas aux caractéristiques de l'individu mais globalement à celle du groupe et qu'on veut corriger l'estimation de ce groupe des fluctuations individuelles. Suis-je clair ?

Oui je crois que c'est clair, merci.

De ce fait tes choix vont dépendre de l'hypothèse que tu testes et donc des individus (décrits par une combinaison des 4 facteurs qui sont traitement, field.treatment, annee et periode) que tu considères interchangeables. Ceci définit ton plan intra.

Donc si je prend la façon dont j'ai attribué les ID ci dessous, cela veut dire mon individu "ID =1" correspond à la combinaison traitement = control * field.treatment = no * annee = 1 et je considère que c'est le même individu que je vais observer mais à 3 périodes différentes de 3,5 et 7 mois et que l'individu évolu en termes de poids et taille des plantes. J'ai bien compris?

par ex.:
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 3 mois--> ID = 1
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 5 mois--> ID = 1
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 7 mois--> ID = 1

var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 3 mois--> ID = 2
var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 5 mois--> ID = 2
var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 7 mois--> ID = 2

De ce que je comprends, tu cherches des différences entre variétés, c'est donc un facteur fixe. C'est là où cela se corse. A ce niveau, quels autres facteurs définissent le plan intra : il peut y en avoir zéro (donc pas besoin d'utiliser lmer) à 4. La réponse à cette question permettra de définir le facteur de regroupement, c'est-à-dire quels individus ont le même ID. Cela peut aller de la variété à une combinaison des 4 facteurs Cependant, il faut déterminer lesquels de ces facteurs définissent réellement un plan intra et lesquels ne sont que des répétitions de la mesure.

Le but de mon étude est de chercher à voir l'effet des Traitements et des field.treatment + de la combinaison field.treatment (yes) avec les différents traitements, sur le poids et la taille des racines dans un premier temps. Puis je veux en effet aussi voir l'effet des variétés sur la taille et le poids des racines. Je cherche aussi à voir la "réaction" des variétés avec les traitements seuls ou en combinaison avec un field-treatment (yes) et tout ça avec une évolution dans le temps car les racines vont plus ou moins pousser au fur et à mesure des mois (période:3,5,7) avec les différentes combinaisons (Traitements, field.tret., var). Et la manip' a été répétée 3 années de suite et je considère que les années sont les répétitions, que le facteur année ne va pas influencer l'effet des traitements ou field.treatment, par contre d'une année à l'autre les plantes peuvent plus ou moins avoir de racines mais je vais considérer que si une plante à plus de racines l'année 2 ça sera homogène pour les facteurs: variétés, field.treatment et traitements donc par exemple l'année 2 il fait plus chaud donc pour tous les traitements, field.treatment et variétés mes racines sont plus grandes que l'année 1.
Dans ma tête dès le début des manip', les années étaient considérées comme les répétitions mais peut-être que j'ai fait faux.
Donc selon vous est-ce que je dois mettre l'ID plutôt

comme ceci: 1 ID pour les 3 périodes mais des ID différents en fonction des années

par ex.:
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 3 mois--> ID = 1
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 5 mois--> ID = 1
var1 * Traitement = control * field.treatment1 = no * année = 1 * période = 7 mois--> ID = 1

var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 3 mois--> ID = 2
var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 5 mois--> ID = 2
var1 * Traitement = control * field.treatment1 = no * année = 2 * période = 7 mois--> ID = 2

Ou comme ceci, 1 ID par période mais le même ID pour les 3 années:

par ex.:
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 1 --> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 2 -> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 3 --> ID = 1

var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 1 --> ID = 2
var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 2 --> ID = 2
var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 3--> ID = 2

ou encore comme ça en ayant le même ID pour les 3 périodes et pour les 3 années:

par ex.:
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 1 --> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 2 -> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 3 --> ID = 1

var1 * Traitement = control * field.treatment1 = no * 5 mois * année = 1 --> ID = 1
var1 * Traitement = control * field.treatment1 = no * 5 mois * année = 2 --> ID = 1
var1 * Traitement = control * field.treatment1 = no * 5 mois * année = 3--> ID = 1

**faubry** · 15/07/2019, 11h10

Dans ma tête dès le début des manip', les années étaient considérées comme les répétitions mais peut-être que j'ai fait faux.

Ce n'est ni faux ni juste. Il faut d'abord que tu poses tes hypothèses pour faire le choix entre les deux solutions de positionnement de l'ID. Toutefois une remarque :

par exemple l'année 2 il fait plus chaud donc pour tous les traitements, field.treatment et variétés mes racines sont plus grandes que l'année 1.

Les années sont identifiées année 1, 2... mais rien ne permet de décrire leurs caractéristiques. Donc pour moi, considérer que l'ID est spécifique d'une année revient à tenter d'analyser un effet année et comme il n'y a rien d'autre concernant les années, j'en conclue que l'analyse est spécifique aux trois années de mesures et que rien ne permet réellement d'étendre ses résultats à d'autres années. Je pense que dans l'esprit des concepteurs de l'analyse, les mesures sont faites sur plusieurs années pour tenir compte des fluctuations possibles d'une année sur l'autre en considérant une sorte de moyennage, c'est-à-dire que les conditions varient aléatoirement d'une année sur l'autre autour d'une ligne de base, ce qui permet de rendre l'analyse plus robuste. A mon avis, l'année est donc un facteur aléatoire qui n'entre pas en ligne de compte dans la formule fixe. Pour la période, si c'est la durée du traitement, c'est un facteur fixe. Par contre, reste entier de savoir si ce facteur appartient au plan intra ou inter. Donc, à défaut d'autres informations, tu as deux possibilités de codage de l'ID :
i) le même ID par année, indépendamment de la période (période dans plan intra). Si la période n'est qu'une simple répétition (de type moyennage comme pour l'année), alors elle n'entre pas en ligne de compte dans la formule fixe.
ii) le même ID par année mais différent par période (période élément du plan inter).

Tu as donc le choix entre tes solutions 1 et 3 mais sache que ce soit pour ta thèse ou pour des publications, tu devras justifier ton choix. Dans une publication, les relecteurs s'attachent beaucoup plus aux justifications et aux discussion qu'à l'analyse statistique, sauf si elle est incohérente avec les hypothèses.

**Margotte02** · 15/07/2019, 11h27

Ok, oui je comprends; pour les prochaines expériences, je ne referai pas la même erreur et je réfléchirai bien à tout cela à priori. Vos explications vont m'aider pour pouvoir justifier mes choix.

Pour moi (et ce que mon supérieur avait comme idée), il faut utiliser les années comme répétition et considérer les 3 périodes séparément comme ci-dessous car la période n'est pas une simple répétition (même si d'après votre description d'individu dans le message précédent, les mesures sont réalisées sur les mêmes individus) puisque le poids des racines évolue dans le temps et que les "traitements" ne sont pas réalisés de manière continue mais par exemple toutes les 3 ou 5 semaines selon les produits et par exemple un produit pourrait ne pas fonctionner à 3 mois et puis ralentir la croissance des racines à nouveau à 5 mois. Donc il faut que j'attribue les ID comme ceci (comme dans le fichier "file" en PJ).

par ex.:
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 1 --> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 2 -> ID = 1
var1 * Traitement = control * field.treatment1 = no * période = 3 mois * année = 3 --> ID = 1

var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 1 --> ID = 2
var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 2 --> ID = 2
var1 * Traitement = control * field.treatment1 = no * période = 5 mois * année = 3--> ID = 2

Donc si je refais les analyses sur le fichier "file" j'obtiens ce résultat:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
fi<-read.csv2("file.csv.csv", na.strings = "NA",header = TRUE)
dim(fi)
head(fi)
fi_2<-subset(fi, periode != "0month", select= c (ID, Variete, annee, periode , Traitement, field.treatment, poids_racines, taille_racines))
dim(fi_2)
head(fi_2)
str(fi_2)
fi<-fi_2
fi$poids_racines<-as.numeric(fi$poids_racines)
fi$taille_racines<-as.numeric(fi$taille_racines)
 
library(lme4)
#avec année-poids
model.1<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + fi$annee + (1 |fi$ID))
 
##SANS année-poids
model.2<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 |fi$ID))

j'ai le message d'erreur:

> #avec année-poids
> model.1<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + fi$annee + (1 |fi$ID))
boundary (singular) fit: see ?isSingular
>
> ##SANS année-poids
> model.2<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 |fi$ID))
boundary (singular) fit: see ?isSingular

et quand je veux comparer j'obtiens:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

anova( model.1, model.2)

> anova( model.1, model.2)
refitting model(s) with ML (instead of REML)
Data: NULL
Models:
model.2: fi$poids_racines ~ (fi$field.treatment + fi$Traitement + fi$Variete +
model.2: fi$periode)^2 + (1 | fi$ID)
model.1: fi$poids_racines ~ (fi$field.treatment + fi$Traitement + fi$Variete +
model.1: fi$periode)^2 + fi$annee + (1 | fi$ID)
Df AIC BIC logLik deviance Chisq Chi Df Pr(>Chisq)
model.2 48 3802.0 3988.6 -1853.0 3706.0
model.1 50 3789.4 3983.8 -1844.7 3689.4 16.578 2 0.0002512 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Warning message:
In optwrap(optimizer, devfun, x@theta, lower = x@lower, calc.derivs = TRUE, :
convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q

**faubry** · 15/07/2019, 12h14

1) Si l'année est simplement un facteur de répétition, cela signifie que les variations d'une année sur l'autre oscillent autour d'une valeur moyenne et que les différences ne sont que des fluctuations statistiques. Dans ces conditions l'année est bien en facteur de regroupement mais ne peut pas intervenir dans le modèle fixe.

2) Pour la suite de la détermination du facteur de regroupement, il faut d'abord décrire le modèle inter-groupe et le modèle intra-groupe. Ce n'est qu'à cette condition que le choix d'attribution de l'ID pourra se faire. Pour une publication, on te demandera d'abord de décrire (et justifier) c'est modèle. Sans cela la publication ne sera pas acceptée.

Il est vrai que le mot 'répétition' à lui seul est assez ambigu. En fait il faut distinguer deux types de répétition sur une unité de mesure (ou 'individu') :
i) répétée plusieurs fois dans les mêmes conditions
a) les répétitions n'affectent pas l'état de l'unité et sont donc interchangeables ;
b) elles l'affectent et leur ordre est important ; on étudie donc une sorte de dynamiques;
ii) elles sont faites dans différentes conditions, par exemple avant un traitement, pendant celui-ci, à sa fin, quelques temps après la fin.

Dans les cas i) et ii), elles définissent un facteur de regroupement R si on passe à un modèle mixte. Dans les cas i.b) et ii), elles font de plus partie du modèle intra et définissent un facteur R du modèle fixe dans le modèle mixte. Dans les cas i.b), R sera un facteur (et non un nombre) avec les niveaux de valeur 1, 2... Dans le cas ii), R aura comme niveaux pour mon exemple 'avant', 'pendant', 'fin', 'après'.

Il faut commencer par déterminer ces points avant de faire une analyse.

**Margotte02** · 15/07/2019, 14h05

Envoyé par faubry

1) Si l'année est simplement un facteur de répétition, cela signifie que les variations d'une année sur l'autre oscillent autour d'une valeur moyenne et que les différences ne sont que des fluctuations statistiques. Dans ces conditions l'année est bien en facteur de regroupement mais ne peut pas intervenir dans le modèle fixe.

2) Pour la suite de la détermination du facteur de regroupement, il faut d'abord décrire le modèle inter-groupe et le modèle intra-groupe. Ce n'est qu'à cette condition que le choix d'attribution de l'ID pourra se faire. Pour une publication, on te demandera d'abord de décrire (et justifier) c'est modèle. Sans cela la publication ne sera pas acceptée.
.

Ok, merci.

Donc je pense que je dois choisir un modèle inter-groupe:
l'année est considérée comme une répétition mais la période non (et je listerai les raisons: un produit peut fonctionner pour diminuer le poids des racines à 3 et 5 mois puis ne plus fonctionner pour 7 mois par exemple) donc j'explique que je choisi le même ID par année mais différent par période (période élément du plan inter).

c'est juste?
Mais concernant l'année, je dois quand même faire un test statistique avec et sans pour montrer que je peux la retirer (comme discuté dans les messages précédents) ou ce n'est pas nécessaire?

Il est vrai que le mot 'répétition' à lui seul est assez ambigu. En fait il faut distinguer deux types de répétition sur une unité de mesure (ou 'individu') :
i) répétée plusieurs fois dans les mêmes conditions
a) les répétitions n'affectent pas l'état de l'unité et sont donc interchangeables ;
b) elles l'affectent et leur ordre est important ; on étudie donc une sorte de dynamiques;
ii) elles sont faites dans différentes conditions, par exemple avant un traitement, pendant celui-ci, à sa fin, quelques temps après la fin.

Dans les cas i) et ii), elles définissent un facteur de regroupement R si on passe à un modèle mixte. Dans les cas i.b) et ii), elles font de plus partie du modèle intra et définissent un facteur R du modèle fixe dans le modèle mixte. Dans les cas i.b), R sera un facteur (et non un nombre) avec les niveaux de valeur 1, 2... Dans le cas ii), R aura comme niveaux pour mon exemple 'avant', 'pendant', 'fin', 'après'.

Il faut commencer par déterminer ces points avant de faire une analyse

Quand vous dites:

i) répétée plusieurs fois dans les mêmes conditions
a) les répétitions n'affectent pas l'état de l'unité et sont donc interchangeables ;
b) elles l'affectent et leur ordre est important ; on étudie donc une sorte de dynamiques;

Cela veut dire pour le b) que par exemple pour la période 3 mois, je ne peux pas échanger les résultats de l'année 1 pour le traitement 1 avec les résultats de l'année 2 pour ce même traitement 1? Ceci est vrai si je compare par exemple pour une année donnée l'efficacité des produits de cette année doit être comparée par rapport au control de la même année, par contre en moyennant les années je considère que je peux comparer la moyenne de l'efficacité d'un produit sur 3 années par rapport au control (moyenne des 3 années).

ii) elles sont faites dans différentes conditions, par exemple avant un traitement, pendant celui-ci, à sa fin, quelques temps après la fin.

l'année un la mesure à 3 mois par exemple à pu être faite 2 semaines après le traitement 1 alors qu'elle a été fait 1 semaine après traitement 1 l'année 2, ce genre de situation est possible mais ici je pense qu'il ne faut pas en tenir compte, sinon cela complique vraiment mon modèle et l'idée est vraiment de voir globalement l'efficacité des produits à 3 périodes données et pour les différentes variétés

Je pense donc être dans le cas ia) ou on est sensé avoir la même efficacité des traitements et field treatment pour une variété donnée pour toutes les années et que par contre il peut y avoir une dynamique au niveau des périodes d'observation

**faubry** · 15/07/2019, 16h33

Donc je pense que je dois choisir un modèle inter-groupe:
l'année est considérée comme une répétition mais la période non (et je listerai les raisons: un produit peut fonctionner pour diminuer le poids des racines à 3 et 5 mois puis ne plus fonctionner pour 7 mois par exemple) donc j'explique que je choisi le même ID par année mais différent par période (période élément du plan inter).

Les raisons données ne sont pas convaincantes puisqu'elles sont aussi bien valables pour un modèle inter-groupe que pour un modèle intra-groupe (cf. mon exemple illustratif cas ii)). Si les facteurs intra n'ont aucun effet, alors ce ne sont que des simples répétitions de la même occurrence. De plus, toujours dans mon cas, il se peut que pour un groupe, on ait un effet toujours positif (le test s'améliore toujours au cours du temps) et pour un autre groupe, aucun effet pour entre avant et pendant, une dégradation à la fin puis une nette amélioration après. Ce qui est à définir c'est ce qu'on considère comme unité de mesure / individu, puis ce qu'on veut tester sur cette unité. En fonction de la définition de cette unité, alors on aura un ID par an mais on change d'ID pour les périodes ou on a un ID par an indépendamment des périodes. Le raisonnement pour définir les ID est donc l'inverse de celui que tu tiens.

Si l'année est un facteur aléatoire, cela n'a pas de sens de tester sa présence dans le modèle fixe, c'est même en contradiction avec l'hypothèse de facteur aléatoire.

Je pense donc être dans le cas ia) ou on est sensé avoir la même efficacité des traitements et field treatment pour une variété donnée pour toutes les années et que par contre il peut y avoir une dynamique au niveau des périodes d'observation

Très mal dit. Quelle hypothèse est testée ? Ensuite on revient toujours à la même question qu'elle est l'unité de mesure et quel est la plan d'analyse en spécifiant sa composante inter et sa composante intra.

De ce que je comprends de tes différentes interventions me conduirait à penser qu'on cherche à différencier des dynamiques (facteur période) en fonction d'unités définies par la variété, le traitement et le field.tretment et que pour s'affranchir d'un biais dû à une année donnée, on a répété les mesures pendant 3 ans pour lisser les variations. Donc, il me semble que le plan est :
- facteur aléatoire : l'année,
- plan inter : variété, traitement, field.treatment,
- plan intra : période.
Ensuite, ce format large en 7/8 colonnes dont 3 ou 4 (je ne sais plus) pour les mesures à différentes périodes est transformé en un format long à 5 facteurs et une mesure dépendante, le facteur aléatoire, les 3 facteurs du plan inter, un facteur intra dont les niveaux sont les différentes périodes (3mois, 5mois, 7mois...) et la mesure. On a donc un ID principale pour chaque combinaison du plan inter. Vu ainsi, on a le choix entre deux modèles :
1) mesure ~ (variété + traitement + field.treatment + période)^2 + (1 | ID)
2) mesure ~ (variété + traitement + field.treatment + période)^2 + (1 | ID/annee)
Le second permettant d'ajouter un lien entre les mesures de la même année.

3 remarques : a) Je reste aux interactions d'ordre 2, voir ce que j'ai déjà dit des interactions d'ordre supérieur à 2. b) Le second modèle est peut-être plus réaliste mais complique sans doute les choses pour une amélioration discutable, notamment en termes de complexité du calcul et de robustesse du résultat ; il ne faut jamais oublier que plus on a de ddl au modèle (même si le nombre réel de ddl d'un modèle mixte est un sijet de discussion), moins les résultats sont robustes ; il faut donc toujours faire un compromis entre justesse / biais et robustesse. c) Vu le nombre de ddl probable du modèle fixe par rapport au nombre d'unité de mesure, c'est-à-dire de ID différent, il faut songer à passer par une étape permettant la simplificatin du modèle ; ceci rejoint le point précédent.

**Margotte02** · 15/07/2019, 17h14

Merci beaucoup pour toutes ces explications. Je vais reflechir à tout cela et reprendre vos exemples au calme pour bien comprendre et je reviens vers vous demain.bonne soirée à vous.

**Margotte02** · 16/07/2019, 07h37

De ce que je comprends de tes différentes interventions me conduirait à penser qu'on cherche à différencier des dynamiques (facteur période) en fonction d'unités définies par la variété, le traitement et le field.tretment et que pour s'affranchir d'un biais dû à une année donnée, on a répété les mesures pendant 3 ans pour lisser les variations.

Oui c'est juste et aussi l'idée de répéter 3 années c'était tout simplement car d'un point de vu technique c'était impossible de répéter deux ou trois fois une unité du plan inter (var*field.treatment*Traitement) dans une même année afin d'avoir des "répétitions", nous avons donc décidé que l'année servirait de répétition.

Donc, il me semble que le plan est :
- facteur aléatoire : l'année,
- plan inter : variété, traitement, field.treatment,
- plan intra : période.
Ensuite, ce format large en 7/8 colonnes dont 3 ou 4 (je ne sais plus) pour les mesures à différentes périodes est transformé en un format long à 5 facteurs et une mesure dépendante, le facteur aléatoire, les 3 facteurs du plan inter, un facteur intra dont les niveaux sont les différentes périodes (3mois, 5mois, 7mois...) et la mesure.

oui

On a donc un ID principale pour chaque combinaison du plan inter.

C'est à dire que dans mon fichier je vais avoir un ID identique pour 9lignes à chaque fois (combinaison du plant inter * 3 périodes * 3 années)?
Donc comme ceci c'est juste? :
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 1--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 1--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 1--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 2--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 2--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 2--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 3--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 3--> ID = 1
variété = 1, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 3--> ID = 1

variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 1--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 1--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 1--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 2--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 2--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 2--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 3 mois et l'année 3--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 5 mois et l'année 3--> ID = 2
variété = 2, traitement = 1, field.treatment = 1 (plant inter) pour: la période 7 mois et l'année 3--> ID = 2

etc....

**Margotte02** · 16/07/2019, 09h34

pour compléter mon message de ce matin,

j'ai fait le fichier avec ID comme décrit dans mon message dessus (j'ai donc 9 ID 1, 9 ID 2 etc..) (file3) en PJ.

j'ai appliqué le code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
fi<-read.csv2("file3csv.csv", na.strings = "NA",header = TRUE)
dim(fi)
head(fi)
fi_2<-subset(fi, periode != "0month", select= c (ID, Variete, annee, periode , Traitement, field.treatment, poids_racines, taille_racines))
dim(fi_2)
head(fi_2)
str(fi_2)
fi<-fi_2
fi$poids_racines<-as.numeric(fi$poids_racines)
fi$taille_racines<-as.numeric(fi$taille_racines)
 
library(lme4)
model_annee_ID<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 |fi$ID/fi$annee))
model_ID<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 |fi$ID))

Pour le mode_anne_ID j'ai le message d'erreur suivant:

Error: couldn't evaluate grouping factor fi$annee

fi:`$`) within model frame: try adding grouping factor to data frame explicitly if possible
In addition: Warning message:
In fi:`$` : numerical expression has 8 elements: only the first used

merci par avance pour votre aide

**faubry** · 16/07/2019, 19h36

1) Pourquoi s'obstiner à passer des fichiers Excel quand on a des fichiers csv ? Ces deniers sont moins lourds et plus pratiques. Oublie Excel.
2) Il faut supprimer les niveaux en trop dans le data.frame donc on doit écrire fi_2 <- droplevels( subset( fi, periode != "0month")) sinon cela génère une erreur puisque que le modèle tente d'estimer des coefficients pour le niveau 0month alors qu'il n'y a aucune valeur.
3) lmer possède un argument data qui permet de passer le data.frame. Non seulement cela allège l'écriture de la formule, mais cela facilite le fonctionnement de la procédure.

Constatations : 1) Le modèle annee_ID conduit à estimer un effet aléatoire sur ID de variance nulle. Il n'est donc pas valable. 2) Vu le nombre de coefficients à estimer, plus de 40, j'essaierai de simplifier le modèle. En utilisant le package lmerTest à la place de lme4, package qui intègre des corrections supplémentaires par rapport à lme4, on s'aperçoit sue le facteur Variete semble n'avoir que peu d'influence. La question à se poser est de savoir si c'est une réalité, c'est-à-dire que vu l'étude les résultats sont assez peu dépendants de la variétés ou si c'est un artefact du à un plan d'étude trop ambitieux pour ses possibilités de réalisations (i.e., le nombre de mesures prévues).

**Margotte02** · 17/07/2019, 07h58

1) ok je n'utiliserai que csv
2) oui c'est vrai, j'ai enlevé le niveau
3)

e modèle annee_ID conduit à estimer un effet aléatoire sur ID de variance nulle. Il n'est donc pas valable.

donc cela veut dire que l'on ne peut pas tester l'effet de l'année?

Vu le nombre de coefficients à estimer, plus de 40, j'essaierai de simplifier le modèle. En utilisant le package lmerTest à la place de lme4, package qui intègre des corrections supplémentaires par rapport à lme4,

Ok j'ai fait comme ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
#Utilisation de lmerTest pour simplifier le model
fi<-read.csv2("file3csv.csv", na.strings = "NA",header = TRUE)
dim(fi)
head(fi)
fi_2<-subset(fi, periode != "0month", select= c (ID, Variete, annee, periode , Traitement, field.treatment, poids_racines, taille_racines))
dim(fi_2)
head(fi_2)
str(fi_2)
fi<-fi_2
fi$poids_racines<-as.numeric(fi$poids_racines)
fi$taille_racines<-as.numeric(fi$taille_racines)
fi <- droplevels( subset( fi, periode != "0month")) 
library(lmerTest)
 
model_ID<-lmer(fi$poids_racines~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 |fi$ID))
summary(model_ID)

par contre comment lire le résultat ci dessous? je sais lire les pvalues des anova mais là je suis perdue:

> summary(model_ID)
Linear mixed model fit by REML. t-tests use Satterthwaite's method ['lmerModLmerTest']
Formula: fi$poids_racines ~ (fi$field.treatment + fi$Traitement + fi$Variete + fi$periode)^2 + (1 | fi$ID)

REML criterion at convergence: 3401.5

Scaled residuals:
Min 1Q Median 3Q Max
-2.93800 -0.57555 -0.06821 0.46364 2.87664

Random effects:
Groups Name Variance Std.Dev.
fi$ID (Intercept) 66.6 8.161
Residual 1962.0 44.295
Number of obs: 360, groups: fi$ID, 40

Fixed effects:
Estimate Std. Error df t value Pr(>|t|)
(Intercept) 78.186 17.243 26.473 4.534 0.000111 ***
fi$field.treatmentYes -60.139 16.471 17.011 -3.651 0.001975 **
fi$TraitementP1 -15.878 20.706 18.861 -0.767 0.452675
fi$TraitementP2 -91.844 20.706 18.861 -4.436 0.000288 ***
fi$TraitementP3 -36.444 20.706 18.861 -1.760 0.094597 .
fi$Varietevar2 48.653 21.558 20.404 2.257 0.035131 *
fi$Varietevar3 64.778 21.558 20.404 3.005 0.006895 **
fi$Varietevar4 3.694 21.558 20.404 0.171 0.865621
fi$Varietevar5 33.569 21.558 20.404 1.557 0.134811
fi$periode5months 53.850 17.155 302.000 3.139 0.001863 **
fi$periode7months 78.658 17.155 302.000 4.585 6.66e-06 ***
fi$field.treatmentYes:fi$TraitementP1 31.089 15.089 12.000 2.060 0.061734 .
fi$field.treatmentYes:fi$TraitementP2 69.000 15.089 12.000 4.573 0.000640 ***
fi$field.treatmentYes:fi$TraitementP3 26.311 15.089 12.000 1.744 0.106748
fi$field.treatmentYes:fi$Varietevar2 -18.028 16.870 12.000 -1.069 0.306270
fi$field.treatmentYes:fi$Varietevar3 -31.639 16.870 12.000 -1.875 0.085268 .
fi$field.treatmentYes:fi$Varietevar4 6.694 16.870 12.000 0.397 0.698467
fi$field.treatmentYes:fi$Varietevar5 -22.917 16.870 12.000 -1.358 0.199324
fi$field.treatmentYes:fi$periode5months 0.600 11.437 302.000 0.052 0.958195
fi$field.treatmentYes:fi$periode7months 9.017 11.437 302.000 0.788 0.431091
fi$TraitementP1:fi$Varietevar2 -42.889 23.858 12.000 -1.798 0.097420 .
fi$TraitementP2:fi$Varietevar2 -19.500 23.858 12.000 -0.817 0.429669
fi$TraitementP3:fi$Varietevar2 -1.667 23.858 12.000 -0.070 0.945458
fi$TraitementP1:fi$Varietevar3 -7.333 23.858 12.000 -0.307 0.763829
fi$TraitementP2:fi$Varietevar3 -18.722 23.858 12.000 -0.785 0.447827
fi$TraitementP3:fi$Varietevar3 -15.444 23.858 12.000 -0.647 0.529599
fi$TraitementP1:fi$Varietevar4 7.333 23.858 12.000 0.307 0.763829
fi$TraitementP2:fi$Varietevar4 3.167 23.858 12.000 0.133 0.896607
fi$TraitementP3:fi$Varietevar4 -8.333 23.858 12.000 -0.349 0.732927
fi$TraitementP1:fi$Varietevar5 -47.111 23.858 12.000 -1.975 0.071774 .
fi$TraitementP2:fi$Varietevar5 -5.889 23.858 12.000 -0.247 0.809213
fi$TraitementP3:fi$Varietevar5 -8.944 23.858 12.000 -0.375 0.714276
fi$TraitementP1:fi$periode5months 2.367 16.174 302.000 0.146 0.883764
fi$TraitementP2:fi$periode5months -35.533 16.174 302.000 -2.197 0.028786 *
fi$TraitementP3:fi$periode5months -24.100 16.174 302.000 -1.490 0.137261
fi$TraitementP1:fi$periode7months 11.800 16.174 302.000 0.730 0.466227
fi$TraitementP2:fi$periode7months -51.767 16.174 302.000 -3.201 0.001518 **
fi$TraitementP3:fi$periode7months -7.200 16.174 302.000 -0.445 0.656528
fi$Varietevar2:fi$periode5months -19.167 18.083 302.000 -1.060 0.290033
fi$Varietevar3:fi$periode5months -34.708 18.083 302.000 -1.919 0.055881 .
fi$Varietevar4:fi$periode5months -17.167 18.083 302.000 -0.949 0.343222
fi$Varietevar5:fi$periode5months -28.042 18.083 302.000 -1.551 0.122023
fi$Varietevar2:fi$periode7months -58.083 18.083 302.000 -3.212 0.001461 **
fi$Varietevar3:fi$periode7months -53.500 18.083 302.000 -2.959 0.003336 **
fi$Varietevar4:fi$periode7months -27.958 18.083 302.000 -1.546 0.123132
fi$Varietevar5:fi$periode7months -35.792 18.083 302.000 -1.979 0.048694 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation matrix not shown by default, as p = 46 > 12.
Use print(x, correlation=TRUE) or
vcov(x) if you need it

Concernant la variété, elle est sensée avoir un effet sur le poids et la taille des racines mais pas d'interaction avec le field treatment et les traitements donc on s'attend à ce qu'elle n'influence pas l'efficacité des traitements

**faubry** · 17/07/2019, 08h42

donc cela veut dire que l'on ne peut pas tester l'effet de l'année?

On ne teste pas un facteur aléatoire, on corrige son effet.
Cela signifie que les données recueillies ne permettent pas de corriger l'effet de l'année dans le modèle choisi, ce qui est différent. Un échantillon donné ne peut en dire plus que l'information qu'il contient.

Avant d'essayer d'interpréter les résultats de la fonction summary (qui donne les estimations des coefficients calculés en fonction des contrastes choisis), il faut d'abord regarder la significativité des variables dépendantes (facteurs et régresseurs) et de leurs interactions (fonction anova ou Anova selon les cas et le type des sommes des carrés), et seuls les coefficients associés aux variables ou interactions significatives sont à interpréter et ce n'est que sur eux qu'on peut faire des tests post-hoc. Ces significativités donnent aussi des indications sur les simplifications que l'on peut faire ou tester du modèle. Donc, sans le résultat de la significativité des variables dépendantes, je ne peux absolument rien dire sur le résultat de summary.

Enfin, ré-écrit ton analyse en utilisant les possibilités de R comme je te l'ai indiqué dans mon point 3 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

codel_ID<-lmer( poids_racines ~ (field.treatment + Traitement + Variete + periode)^2 + (1 |ID), fi)

**Margotte02** · 17/07/2019, 09h04

Ok merci.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
codel_ID<-lmer( poids_racines ~ (field.treatment + Traitement + Variete + periode)^2 + (1 |ID), fi)
anova(codel_ID)

juste une précision SVP: en écrivant comme ceci et avec la façon dont j'ai attribué les ID; cela veut dire que dans ce modele la "répétition" pour chacune des unités sur laquelle je mesure (field.t * traitement * var) est en fait les périodes * l'année donc 9 répétitions par unité, j'ai bien compris?
quel est le type de modèle avec cette formule, est-ce que c'est un modèle mixte?

Voici le résultat de l'appel avec anova ci-dessous:

> anova(codel_ID)
Type III Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

j'ai donc un effet du field treatment; du traitement, de la periode mais aussi une interaction field.treatment* traitement, traitement * periode et variété*période; sur le poids des racines. Et si j'ai bien compris, c'est sur cette base que je dois faire un test post hoc pour déterminer par exemple quel traitement est significativement différent du control.

**faubry** · 17/07/2019, 10h47

quel est le type de modèle avec cette formule, est-ce que c'est un modèle mixte?

Que dit-on dans cette formule ? Il faut revenir aux hypothèses qui sont faites, ou que j'ai faites en fonction de ce que j'ai compris de ce que tu as dit. Seuls toi et tes encadrants peuvent dire si mon interprétation est exacte. On part d'une unité de mesure qui décrite par une combinaison des niveaux du modèle inter (cf. mon commentaire du 15/7 à 16h33) qui décrit une catégorie. On affecte à cette unité de mesure un identificateur ID. Cette unité de mesure est un représentant tiré au hasard de la population décrite par la combinaison. De plus, cet identificateur servira dans l'analyse comme facteur de regroupement pour signifier que toutes les lignes/individus du tableau de données ayant cet identificateur sont liées entre elles. A l'intérieur de ces regroupement, on fait l'hypothèse qu'on teste chaque unité de mesure selon différentes périodes (modèle intra). Étant donné qu'en fait chaque ligne est appliqué sur un représentant physique de la catégorie, on veut corriger l'analyse de cet effet, ce qui justifie l'utilisation d'un format long qui permet de tenir compte des variations aléatoires entre représentants, alors que le format court suppose le même individu. Enfin, pour éviter que les données soient biaisées par une année donnée, on décide de moyenner les données sur 3 ans en supposant que les mesures varient, au moins sur un laps de temps aussi court, autour d'une ligne de base et que les écarts à cette ligne de base sont des fluctuations aléatoires. La véritable répétition de la même mesure a donc lieu à ce niveau tandis que celle dans des conditions différentes est définie par le modèle intra.
Ce raisonnement qui est peut-être faux par rapport au design de l'expérience me conduit au modèle proposé. Maintenant à toi de répondre à ta question.

Et si j'ai bien compris, c'est sur cette base que je dois faire un test post hoc pour déterminer par exemple quel traitement est significativement différent du control.

La première chose au vu des résultats est sans doute de simplifier le modèle après l'avoir commenté. Il y a déjà beaucoup de choses à dire sur ce résultat. Et je reviens toujours à ma question qui est de se demander si les hypothèses qu'on veut tester ne sont pas trop ambitieuses par rapport à la conception du recueil des données. Par exemple, la variété semble jouer un rôle négligeable dans l'échantillon analysé. Est-ce cohérent par rapport aux connaissances qu'on a sur les variétés ou n'est-ce qu'un artefact dû aux limites du plan d'expérience ?

quel traitement est significativement différent du control

indépendamment des autres facteurs ?

**Margotte02** · 17/07/2019, 11h03

Par exemple, la variété semble jouer un rôle négligeable dans l'échantillon analysé. Est-ce cohérent par rapport aux connaissances qu'on a sur les variétés ou n'est-ce qu'un artefact dû aux limites du plan d'expérience ?

Concernant la variété, elle est sensée avoir un effet sur le poids et la taille des racines mais pas d'interaction avec le field treatment et les traitements donc on s'attend à ce qu'elle n'influence pas l'efficacité des traitements

indépendamment des autres facteurs ?

Oui, dans un premier temps je dois testé avec un test post hoc ce qui "sort" significatif dans l'anova du modèle siimplifié non? donc ici je comprends bien et ce que j'aimerais faire c'est de tester --> l'effet traitement afin de voir quel traitement est vraiment différent du control
--> Ensuite je dois tester l’interaction "traitement*field.treatment" afin de voir avec quel traitement le field.treatment va interagir
--> je dois aussi tester la période afin de voir quelle période est différente des autres
--> interaction traitement*periode afin de voir l'effet temps sur chaque traitement
--> variété * période ici cà l'air très faible; je pense que certaines variétés décrochent dans le temps, c a d le poids des racines augmente à partir de 5 mois par exemple

> anova(codel_ID)
Type III Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

**faubry** · 17/07/2019, 11h43

Oui, dans un premier temps je dois testé avec un test post hoc ce qui "sort" significatif dans l'anova du modèle siimplifié non?

Non, tu ne dois tester que les variables dépendantes significatives. Tester les autres n'a aucun sens et conduit à des erreurs d'interprétation. Ensuite, si le résultat de l'anova est contradictoire avec les a priori, il faut alors se poser des questions soit sur ceux-ci soit sur la conception de l'analyse. C'est une erreur de vouloir à tout prix tirer des conclusions d'une analyse sans l'avoir pensé avant.

Compare aussi les trois tables d'anova, celle que tu as calculée avec anova( codel_ID, type="II") et anova( codel_ID, type="II", ddf="lme4"). Mais avant tout, est-ce que mon raisonnement pour arriver au modèle est exact. De plus, quand tu dis

Concernant la variété, elle est sensée avoir un effet sur le poids et la taille des racines mais pas d'interaction avec le field treatment et les traitements donc on s'attend à ce qu'elle n'influence pas l'efficacité des traitements

qu'en conclues-tu sur l'hypothèse principale à tester et les hypothèses secondaires. La réponse à ces points est cruciale pour l'analyse car c'est cela qui conduit au design de l'analyse et donc au modèle analysé. Commence par cela.

**Margotte02** · 17/07/2019, 11h59

Non, tu ne dois tester que les variables dépendantes significatives

cela veut dire que je dois tester uniquement les combinaisons qui sont significatives et donc:

-->l’interaction "traitement*field.treatment" afin de voir avec quel traitement le field.treatment va interagir
--> interaction traitement*periode afin de voir l'effet temps sur chaque traitement
--> variété * période

Quel test post hoc est-ce que je pourrais faire?

Ensuite, si le résultat de l'anova est contradictoire avec les a priori, il faut alors se poser des questions soit sur ceux-ci soit sur la conception de l'analyse. C'est une erreur de vouloir à tout prix tirer des conclusions d'une analyse sans l'avoir pensé avant.

Je vais expliquer tout le raisonnement de l'analyse à mon superviseur quand je le verrai (pas avant mi-août) et je vais voir avec lui avant de tirer des conclusions.

Compare aussi les trois tables d'anova, celle que tu as calculée avec anova( codel_ID, type="II") et anova( codel_ID, type="II", ddf="lme4"). Mais avant tout, est-ce que mon raisonnement pour arriver au modèle est exact.

je pense que votre raisonnement est juste et que vous avez bien compris mon expérience, encore merci pour votre aide. Je vérifiai tout le raisonnement avec mon superviseur et si vous êtes d'accord je n'hésiterai pas à revenir vers vous; votre aide a été précieuse car j'ai très peu voir pas de connaissances en statistiques.
donc les 3 formules à tester seraient:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
anova(codel_ID)
anova( codel_ID, type="II") 
anova( codel_ID, type="II", ddf="lme4")

quelles sont les différences entre ces 3 formules? je ne suis pas sûre de comprendre

voici les résultats ci-dessous, entre la 1ere et la 2eme cela n'a pas l'air de changer grand chose par contre pour la 3ème j'ai des "F", comment lit-on cela SVP?

> anova(codel_ID)
Type III Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> anova( codel_ID, type="II")
Type II Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> anova( codel_ID, type="II", ddf="lme4")
Analysis of Variance Table
Df Sum Sq Mean Sq F value
field.treatment 1 102244 102244 52.1109
Traitement 3 361958 120653 61.4935
Variete 4 17306 4327 2.2051
periode 2 79375 39688 20.2277
field.treatment:Traitement 3 41804 13935 7.1021
field.treatment:Variete 4 14170 3543 1.8056
field.treatment:periode 2 1525 763 0.3886
Traitement:Variete 12 28828 2402 1.2244
Traitement:periode 6 39565 6594 3.3608
Variete:periode 8 29769 3721 1.8966

**faubry** · 17/07/2019, 12h27

cela veut dire que je dois tester uniquement les combinaisons qui sont significatives

C'est à cela que sert une analyse statistique, vérifier des hypothèses, savoir ce qui a aucun effet compte-tenu des hypothèses faites et des données recueillies. Ensuite, tester des hypothèses secondaires sur les effets significatifs. Cependant, l'étape essentielle est de discuter les résultats de l'analyse.

Je vais expliquer tout le raisonnement de l'analyse à mon superviseur quand je le verrai (pas avant mi-août) et je vais voir avec lui avant de tirer des conclusions.

Tirer un modèle des données c'est prendre le problème à l'envers. Le superviseur doit t'expliquer ce qu'il a voulu faire et tester et comme il s'y est pris (conception de l'analyse) et à toi d'en tirer le modèle à analyser.

**Margotte02** · 17/07/2019, 12h58

Le superviseur doit t'expliquer ce qu'il a voulu faire et tester et comme il s'y est pris (conception de l'analyse) et à toi d'en tirer le modèle à analyser.

il n'y a pas eu de plan statistique fait à priori (d'où mes problèmes), l'idée de mon superviseur était vraiment simplement de voir l'éffet des traitements, field.treat. et l'effet variété sur le poids et la taille des racines afin de trouver le ou les traitements les plus efficaces. Nous allons discuter de tout cela à postériori du coup et décider comment traiter la suite.

si je peux encore abuser un peu de votre temps, est-ce que vous pourriez juste m'expliquer la différence entre ces 3 formules ou ce que ces 3 formules font et pour la dernière comment je fois lire le résultat svp?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
anova(codel_ID)
anova( codel_ID, type="II") 
anova( codel_ID, type="II", ddf="lme4")

résultat:

> anova(codel_ID)
Type III Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> anova( codel_ID, type="II")
Type II Analysis of Variance Table with Satterthwaite's method
Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
field.treatment 102244 102244 1 12 52.1109 1.059e-05 ***
Traitement 361958 120653 3 12 61.4935 1.482e-07 ***
Variete 17306 4327 4 12 2.2051 0.129830
periode 79375 39688 2 302 20.2277 5.699e-09 ***
field.treatment:Traitement 41804 13935 3 12 7.1021 0.005330 **
field.treatment:Variete 14170 3543 4 12 1.8056 0.192633
field.treatment:periode 1525 763 2 302 0.3886 0.678325
Traitement:Variete 28828 2402 12 12 1.2244 0.365735
Traitement:periode 39565 6594 6 302 3.3608 0.003197 **
Variete:periode 29769 3721 8 302 1.8966 0.060127 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> anova( codel_ID, type="II", ddf="lme4")
Analysis of Variance Table
Df Sum Sq Mean Sq F value
field.treatment 1 102244 102244 52.1109
Traitement 3 361958 120653 61.4935
Variete 4 17306 4327 2.2051
periode 2 79375 39688 20.2277
field.treatment:Traitement 3 41804 13935 7.1021
field.treatment:Variete 4 14170 3543 1.8056
field.treatment:periode 2 1525 763 0.3886
Traitement:Variete 12 28828 2402 1.2244
Traitement:periode 6 39565 6594 3.3608
Variete:periode 8 29769 3721 1.8966

lme4 message d'erreur

R

Discussions similaires

Partager

Partager