Envoyé par
VonVelten
Les notions d'échantillon d'apprentissage et de validation sont liées notamment à la validation croisée (attention, dans ce cas, il vaut mieux utiliser l'option replace=FALSE, une donnée ne devant être que dans l'un ou dans l'autre, mais pas dans les deux).
Le principe est de réaliser la calibration du modèle (estimation des paramètres) sur les données d'apprentissage (le modèle apprend comment il doit se comporter). Si le modèle est satisfaisant (et que les hypothèses sont vérifiées -> validation interne), alors on teste qu'il fonctionne bien sur des données n'ayant pas participer à sa construction (validation externe).
Après le choix entre apprentissage et validation est purement subjectif et aléatoire, mais une fois que cela est décidé et que les analyses ont début, on n'y touche plus (ou alors on recommence du début). L'idéal est d'avoir deux jeux de données assez proche (moyenne et écart-type proches, etc...)
J'espère que c'est assez clair.
VV
Partager