Bonjour,
Je cherche à construire un modèle statistique pour étudier mes données. Pour cela j'ai procédé en partant d'un modèle saturé et également en partant d'un modèle avec uniquement l'intercept. Voici le script utilisé:
1 2 3 4 5 6 7 8
| a=read.table("Mean_2012_2013.txt",h=T)
a$annee=as.factor(a$annee)
a$mois=as.factor(a$mois)
model.sature=lm(TairMean~latitude*mois*annee,data=na.omit(a))
st.sat=stepAIC(model.sature,scope=(lower=~ 1))
model.cst=lm(TairMean~1,data=na.omit(a))
st.cst=stepAIC(model.cst,scope=(upper=~latitude*mois*annee)) |
En partant du modèle saturé, voici le modèle sélectionné:
mod1=lm(TairMean~latitude*mois*annee, data=a)
Et en partant du modèle avec uniquement l'intercept:
mod2=lm(TairMean ~ latitude + mois + latitude:mois, data=a)
Afin de pouvoir faire un choix entre ces deux modèles, j'utilise la fonction AIC du package MASS comme suit:
1 2 3 4
| > AIC(mod1,mod2)
df AIC
mod1 17 4815.705
mod2 9 4875.303 |
Ainsi, sur la base de l'AIC, mon choix se porterait sur mod1 dont l'AIC est plus faible. Cependant, la différence est faible et l'on passe de 9 à 17 df en sélectionnant mod1. J'aurais donc finalement tendance à opter pour mod2.
J'aimerais avoir votre avis sur cette question! Merci pour vos lumières
Partager