Gros écarts entre différents échantillons

**ToTo13** · 27/09/2014, 03h13

Bonjour,

j'ai un problème que je n'arrive pas à expliquer et je souhaiterai vos lumières.

J’ai deux échantillons, un pour l’apprentissage et l’autre pour le test.
Chaque échantillon possède environ 750 instances divisées en six classes.

Pour améliorer le classement, je fais des classifieurs binaires : une classe contre toutes les autres réunies sous le même nom. Je me retrouve donc avec six classifieurs, chacun étant spécialisé pour prédire une seule classe.

Sur l’échantillon d’apprentissage, je fais bien sûr une validation croisée (10-folds) afin d’avoir une idée du comportement de chaque classifieur. Et pour chaque classe/classifieur, j’ai des très bons résultats : la prédiction de chaque classe est supérieure à 0.9, voire même 1 pour la classe la plus facile (totalement différente des autres).

Mais lorsque je classe l’échantillon de test, les prédictions tombent sous les 0.5 pour toutes les classes sauf la plus facile qui tombe à 0.8. Et ce en utilisant des classifieurs différents (Random Forest et MLP), ainsi que des méthodes d'équilibrage des classes différentes.

Et je ne comprends ABSOLUMENT pas pourquoi.

Est ce que quelqu'un aurait une idée sur la question ?

Merci par avance.

**fafabzh6** · 29/09/2014, 10h44

Bonjour,
Quelle est ta règle de classement finale c'est-à-dire celle par rapport à tes 6 classifieurs ?
Tu prends la probabilité maximale, si probabilité il y a ?

**ToTo13** · 29/09/2014, 10h52

Oui, je fais cela.

Mon problème ressemble clairement à de l'ovefitting, donc j'ai changé ce que je faisais pour faire un seul classifieur 1 vs All.
J'ai des meilleurs résultats avec les RdN, mais l'écart est encore trop important à mon goût.
Même si les échantillons ont des soucis (et je ne peux RIEN faire pour améliorer cela), l'écart ne devrait pas être aussi grand.

**fafabzh6** · 29/09/2014, 13h23

Ca ressemble effectivement clairement à du surapprentissage !
As-tu tester des modèles ou tu n'as qu'un seul classifieur non binaire ; c'est-à-dire prédiction directe des 6 classes avec le classifieur ?

**ToTo13** · 29/09/2014, 18h46

Envoyé par fafabzh6

Ca ressemble effectivement clairement à du surapprentissage !
As-tu tester des modèles ou tu n'as qu'un seul classifieur non binaire ; c'est-à-dire prédiction directe des 6 classes avec le classifieur ?

Envoyé par ToTo13

Mon problème ressemble clairement à de l'ovefitting, donc j'ai changé ce que je faisais pour faire un seul classifieur 1 vs All.
J'ai des meilleurs résultats avec les RdN, mais l'écart est encore trop important à mon goût.

**fafabzh6** · 01/10/2014, 15h30

Je propose l'idée au cas où tu ne l'aurais pas déjà testé : tu n'as qu'à passer à trois échantillons et fixer tes paramètres d'ajustement à partir du deuxième échantillon pour ensuite tester sur le troisième.
On sait jamais ça pourrait améliorer.

Gros écarts entre différents échantillons

Statistiques, Data Mining et Data Science

Discussions similaires

Partager

Partager