Bonjour,
j'ai un problème que je n'arrive pas à expliquer et je souhaiterai vos lumières.
J’ai deux échantillons, un pour l’apprentissage et l’autre pour le test.
Chaque échantillon possède environ 750 instances divisées en six classes.
Pour améliorer le classement, je fais des classifieurs binaires : une classe contre toutes les autres réunies sous le même nom. Je me retrouve donc avec six classifieurs, chacun étant spécialisé pour prédire une seule classe.
Sur l’échantillon d’apprentissage, je fais bien sûr une validation croisée (10-folds) afin d’avoir une idée du comportement de chaque classifieur. Et pour chaque classe/classifieur, j’ai des très bons résultats : la prédiction de chaque classe est supérieure à 0.9, voire même 1 pour la classe la plus facile (totalement différente des autres).
Mais lorsque je classe l’échantillon de test, les prédictions tombent sous les 0.5 pour toutes les classes sauf la plus facile qui tombe à 0.8. Et ce en utilisant des classifieurs différents (Random Forest et MLP), ainsi que des méthodes d'équilibrage des classes différentes.
Et je ne comprends ABSOLUMENT pas pourquoi.
Est ce que quelqu'un aurait une idée sur la question ?
Merci par avance.
Partager