Pour le 1), tout d'abord, qui dit facteur aléatoire dit que toutes les occurrences du même niveau de ce facteur sont considérées comme interchangeables, que les différences ne proviennent que de fluctuations statistiques de mesure et que les niveaux ne sont qu'un échantillon des niveaux possibles. C'est le cas d'un individu dans un groupe homogène de grande dimension. On ne choisit que quelques individus mais on considère qu'on obtiendrait les mêmes résultats avec d'autres individus. De plus, le choix d'utiliser un facteur comme facteur aléatoire signifie qu'on ne s'intéresse pas aux caractéristiques de l'individu mais globalement à celle du groupe et qu'on veut corriger l'estimation de ce groupe des fluctuations individuelles. Suis-je clair ?
De ce fait tes choix vont dépendre de l'hypothèse que tu testes et donc des individus (décrits par une combinaison des 4 facteurs qui sont traitement, field.treatment, annee et periode) que tu considères interchangeables. Ceci définit ton plan intra. De ce que je comprends, tu cherches des différences entre variétés, c'est donc un facteur fixe. C'est là où cela se corse. A ce niveau, quels autres facteurs définissent le plan intra : il peut y en avoir zéro (donc pas besoin d'utiliser lmer) à 4. La réponse à cette question permettra de définir le facteur de regroupement, c'est-à-dire quels individus ont le même ID. Cela peut aller de la variété à une combinaison des 4 facteurs Cependant, il faut déterminer lesquels de ces facteurs définissent réellement un plan intra et lesquels ne sont que des répétitions de la mesure.
Je m'explique par un exemple bidon, je fais un test dont je mesure l'effet mais je considère que ce test, une fois réalisé, ne change pas la nature de l'individu sur des individus de plusieurs groupes (facteur G) dans plusieurs conditions expérimentales (C) et je le répète plusieurs fois (F) sur chaque individu. F est donc un facteur de regroupement.
Maintenant, si je considère que C définit un plan intra, j'aurais un data.frame 'large' (wide) dont les colonnes seront : mesure.cdn1, mesure.cdn2 ... G F que je pourrais transformer en un data.frame long : mesure C G F ID.individu où ID.individu est le même pour chaque ligne du data.frame large. De ce fait, le formule mixte devient : mesure ~ C * G + (1 | ID.individu) + (1 | ID.individu:F)
Si par contre, C est définit un plan inter, alors le data.frame est mesure C G F et la formule est : mesure ~ C * G + (1 | F)
Donc seul le design de l'expérience et tes hypothèses peuvent répondre à la question. Dans le premier cas, tester si (1 | ID.individu:F) apporte quelque chose est possible mais la procédure est différente de celle que je t'ai donnée qui est faite pour tester des modèles fixes emboîtés. Si tu en as besoin, je la donnerai mais ne la met pas ici car elle est plus complexe.
Pour le 3), anova indique qu'en réalité le test doit se faire avec l'approche ML au lieu de l'approche REML qui est celle par défaut et que pour calculer la différence, anova a reestimé ces modèles avec cette approche. D'après le résultat brut, il y aurait une différence significative mais en regardant les AIC (ou les déviances) et le nombre de ddl des modèles, je n'en suis pas très convaincu. En effet, comme le nombre de ddl est important, la différence pourrait n'être qu'un artefact statistique puisqu'on peut montrer que dans une analyse statistique on peut toujours trouver un nombre suffisant d'individus (ou de ddl) pour trouver une différence significative entre groupe, aussi petite que cette différence soit.
Le plus dur dans une étude statistique est la définition du plan d'expérience et donc des hypothèses a priori (c'est-à-dire la réflexion amont) puis la discussion des résultat (réflexion aval), l'analyse statistique elle-même est simple, les procédures découlant du plan d'expérience et des hypothèses.