IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Gros écarts entre différents échantillons


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut Gros écarts entre différents échantillons
    Bonjour,

    j'ai un problème que je n'arrive pas à expliquer et je souhaiterai vos lumières.

    J’ai deux échantillons, un pour l’apprentissage et l’autre pour le test.
    Chaque échantillon possède environ 750 instances divisées en six classes.

    Pour améliorer le classement, je fais des classifieurs binaires : une classe contre toutes les autres réunies sous le même nom. Je me retrouve donc avec six classifieurs, chacun étant spécialisé pour prédire une seule classe.

    Sur l’échantillon d’apprentissage, je fais bien sûr une validation croisée (10-folds) afin d’avoir une idée du comportement de chaque classifieur. Et pour chaque classe/classifieur, j’ai des très bons résultats : la prédiction de chaque classe est supérieure à 0.9, voire même 1 pour la classe la plus facile (totalement différente des autres).

    Mais lorsque je classe l’échantillon de test, les prédictions tombent sous les 0.5 pour toutes les classes sauf la plus facile qui tombe à 0.8. Et ce en utilisant des classifieurs différents (Random Forest et MLP), ainsi que des méthodes d'équilibrage des classes différentes.

    Et je ne comprends ABSOLUMENT pas pourquoi.

    Est ce que quelqu'un aurait une idée sur la question ?

    Merci par avance.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  2. #2
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Bonjour,
    Quelle est ta règle de classement finale c'est-à-dire celle par rapport à tes 6 classifieurs ?
    Tu prends la probabilité maximale, si probabilité il y a ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  3. #3
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Oui, je fais cela.

    Mon problème ressemble clairement à de l'ovefitting, donc j'ai changé ce que je faisais pour faire un seul classifieur 1 vs All.
    J'ai des meilleurs résultats avec les RdN, mais l'écart est encore trop important à mon goût.
    Même si les échantillons ont des soucis (et je ne peux RIEN faire pour améliorer cela), l'écart ne devrait pas être aussi grand.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  4. #4
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Ca ressemble effectivement clairement à du surapprentissage !
    As-tu tester des modèles ou tu n'as qu'un seul classifieur non binaire ; c'est-à-dire prédiction directe des 6 classes avec le classifieur ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  5. #5
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Citation Envoyé par fafabzh6 Voir le message
    Ca ressemble effectivement clairement à du surapprentissage !
    As-tu tester des modèles ou tu n'as qu'un seul classifieur non binaire ; c'est-à-dire prédiction directe des 6 classes avec le classifieur ?

    Citation Envoyé par ToTo13 Voir le message
    Mon problème ressemble clairement à de l'ovefitting, donc j'ai changé ce que je faisais pour faire un seul classifieur 1 vs All.
    J'ai des meilleurs résultats avec les RdN, mais l'écart est encore trop important à mon goût.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  6. #6
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Je propose l'idée au cas où tu ne l'aurais pas déjà testé : tu n'as qu'à passer à trois échantillons et fixer tes paramètres d'ajustement à partir du deuxième échantillon pour ensuite tester sur le troisième.
    On sait jamais ça pourrait améliorer.
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

Discussions similaires

  1. Réponses: 0
    Dernier message: 08/05/2014, 13h31
  2. Import de DUMP entre différentes version de oracle
    Par Fraise des Bois dans le forum Oracle
    Réponses: 2
    Dernier message: 02/11/2005, 16h03
  3. Petit écart entre 2 div sous FF
    Par Death83 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 14/10/2005, 20h25
  4. [DOM] Problème entre différentes versions de java
    Par scorpiwolf dans le forum Format d'échange (XML, JSON...)
    Réponses: 3
    Dernier message: 17/03/2005, 11h40
  5. Simulation de transmission de paquet entre différent réseaux
    Par MelloW dans le forum Développement
    Réponses: 2
    Dernier message: 12/07/2002, 19h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo