Bonjour,

Je cherche à construire un modèle statistique pour étudier mes données. Pour cela j'ai procédé en partant d'un modèle saturé et également en partant d'un modèle avec uniquement l'intercept. Voici le script utilisé:

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
a=read.table("Mean_2012_2013.txt",h=T)
a$annee=as.factor(a$annee)
a$mois=as.factor(a$mois)
 
model.sature=lm(TairMean~latitude*mois*annee,data=na.omit(a))
st.sat=stepAIC(model.sature,scope=(lower=~ 1))
model.cst=lm(TairMean~1,data=na.omit(a)) 
st.cst=stepAIC(model.cst,scope=(upper=~latitude*mois*annee))
En partant du modèle saturé, voici le modèle sélectionné:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
mod1=lm(TairMean~latitude*mois*annee, data=a)
Et en partant du modèle avec uniquement l'intercept:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
mod2=lm(TairMean ~ latitude + mois + latitude:mois, data=a)
Afin de pouvoir faire un choix entre ces deux modèles, j'utilise la fonction AIC du package MASS comme suit:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
> AIC(mod1,mod2)
     df      AIC
mod1 17 4815.705
mod2  9 4875.303
Ainsi, sur la base de l'AIC, mon choix se porterait sur mod1 dont l'AIC est plus faible. Cependant, la différence est faible et l'on passe de 9 à 17 df en sélectionnant mod1. J'aurais donc finalement tendance à opter pour mod2.

J'aimerais avoir votre avis sur cette question! Merci pour vos lumières