Bonjour,
Je réalise actuellement un score d'appétence, pour cela j'utilise une régression logistique.
Pour renforcer la robustesse de mon modèle je souhaite utiliser la méthode de bagging.
Dans une première étape, j'ai créé mon modèle logistique sur un échantillon d'apprentissage unique de façon à obtenir les variables significatives, dans ce modèle les modalités associées à mes variables sont également toutes significatives .
Dans une deuxième étape, j'ai reproduit n échantillons avec remise à partir du 1er échantillon d'apprentissage, et créé un modèle logistique pour chacun de ces échantillons en utilisant les mêmes variables qu'à l'étape 1. Ensuite, j'ai fait la moyenne des coefficients de mes n modèles. De cette manière je gagne en stabilité car mon auc est plus proche sur l'échantillon d'apprentissage et de validation. Mon problème vient du fait que certaines modalités de mes variables ne sont plus significatives sur certains des n modeles, dans ce cas faire la moyennes sur les coefficients est-il envisageable ? Dans le cas contraire comment contourner le problème ?
Je vous remercie d'avance pour votre aide car je tourne en rond et il y a peu de documentation detaillée et en vision opérationnelle sur le sujet du bagging.
Carole
Partager