Salut à tous,

J'utilise le package "party" qui permet de créer des forêts aléatoires d'arbres de régression. J'ai crée un objet ForestControl de manière à pouvoir limiter le nombre d'arbres (ntree), de nœuds (maxdepth) et de variables utilisées pour fitter un arbre (mtry). Ce dont je ne suis pas sur, c'est si l'algo utilise bien un sous ensemble de mon "training set" pour chacun des arbres générés.

J'ai vu dans la documentation que la technique de bagging était utilisée donc je dirais que oui. En revanche je ne comprends du coup pas trop à quoi sert le paramètre subset de cette fonction dans ce cas.

L'autre soucis que j'ai est que lorsque j'utilise la fonction ctree() (qui génère un arbre aléatoire au lieu de plusieurs), je vois que tout l'échantillon de mon "training set" est utilisé pour entraîner mon arbre, ce qui est contraire à la technique de bagging.

Ma question est donc de savoir si cforest() découpe bien mon "training set" de manière aléatoire pour chaque arbre où s'il utilise tout cet échantillon comme dans ctree.

Merci d'avance pour votre aide!

Ben