IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Une classe de données affecte les résultats


Sujet :

Intelligence artificielle

  1. #1
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut Une classe de données affecte les résultats
    Bonsoir a tous

    Je fait en ce moment de la classification des données, mais je rencontre un probleme bizarre, je m'explique:

    J'ai 5 classes de données, les résultats sont globalement bons, mais
    je sais que si j’élimine la dernière classe C5, j’obtiendrai de meilleurs résultats sachant que:
    C1:300
    C2:1000
    C3:1000
    C4:500
    C5:4000, en nombre de données

    Mais peut-on éliminer toutes les données d'une classe (C5) dans une base de données, pour améliorer les résultats de classification, sachant que cette classe n'est pas importante pour mon objectif. Mais en cas de suppression de ces données, est ce que cela n'affecte pas la base de données ou plutôt il y a une autre procédure.

    Merci.

    Mes salutations

  2. #2
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464
    Par défaut
    • Tu veux éliminer une classe ou bien éliminer des individus ?
    • Pourquoi as-tu fixé à 5 le nombre de classes ?

  3. #3
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonsoir

    La base de données contient déjà les classes prédéfinies.

    Oui, j'ai proposé d’éliminer les individus de la classe5,
    mais est ce que cette procédure est courante? c'est a dire je supprime et les individus et la classe correspondante, puisque c'est un apprentissage supervise que je fait.

    Sachant que mon probleme est la classe5, elle diminue les performances.

    Merci.

    Cordialement.

  4. #4
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464
    Par défaut
    Je dirais que cela dépend si tes classes correspondent à quelque chose dans la réalité : le cas échéant, les individus faisant parti de la classe 5 vont être automatiquement mal classés puisque le réseau ne pourra choisir entre les classes 1, 2, 3 et 4... Par exemple si une classe correspond à une espèce animale, si tu élimines une classe alors tous les individus d'une espèce seront alors mal classés.

    A contrario, typiquement en apprentissage non-supervisé, il est courant de faire varier le nombre de classes afin d'optimiser les performances (l'exemple le plus courant est la détermination du nombre de classes avant de faire tourner un K-means).

  5. #5
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour
    Oui mes classes ont un sens physique.
    Je vais juste bien explique ma proposition qui était de supprimer
    la classe 5 et ces données correspondante (pas les classes seulement), comme si c’était une base a 4 classes. Je ne sais pas est ce je peut éliminer de cette façon les données de la classe5, sachant que cette dernière m’intéresse pas trop??????

    Merci pour votre réponse.

    Cordialement.

  6. #6
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Tu as un problème que l'on nomme "Imabalanced Data Set" (déséquilibre des données dans les classes).
    Tu as plus d'individus dans ta classe C5 que dans toutes les autres classes.
    Donc si tu ne rééquilibre pas avant travail ou si ton classifieur ne gère pas la situation au niveau de la fonction de pondération des erreurs, alors ton apprentissage est biaisé par la classe majoritaire.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  7. #7
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour
    C'est tout a fait ça. (Ensemble de données déséquilibrées)
    Donc, je ne peut pas directement éliminer cette classe de la BDonnées qui n'est pas trop importante pour mon travail, c'est ça, ce que vous voulez dire???
    Et pour le rééquilibrage alors, est ce que je peut faire ça de manière
    aléatoire, c'est a dire j’élimine des données ou j'ajoute des donnees???

    Merci beaucoup pour votre information.

    Cordialement

  8. #8
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    le mieux est souvent de se ramener à des problèmes à deux classes en faisant un over-sampling (sur-échantillonnage) de la classe minoritaire/traitée.
    Dans ton cas, tu as 6 classes, donc :
    - tu dois créer 6 classifieurs.
    - pour chaque classe, tu la dupliques jusqu'à ce que la classe qui t'intéresse ait autant d'individu que toutes les autres réunies. Puis tu fais ton apprentissage.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  9. #9
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour,

    Oui, c'est le principe du Multi-classes diviser le probleme en plusieurs
    classificateurs bi-classes. Donc le sur-échantillonnage de la classe minoritaire/traitée est le mieux adapté à mon cas.
    Donc si ma donnée est (0, 1 ,1.5) de la classe minoritaire, je la duplique plusieurs fois en ayant toujours le même point dans un graphique à trois dimensions.
    Je vais essayer cette méthode, et je vous répondrai prochainement.
    Un grand merci pour votre aide.

    Cordialement

  10. #10
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    le fait de dupliquer ne tombe jamais exactement sur le bon chiffre.
    Ce qui est utile, c'est souvent de dupliquer tant qu'on le peut et ensuite de tirer les éléments restant aléatoirement.
    Par exemple :
    - C1 500 instances, C2+C3+C4 4200 instances
    - Dupliquer C1 8 fois.
    - Faire 200 tirages aléatoires dans C1 pour compléter.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  11. #11
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonjour,
    Merci beaucoup de m'avoir fournit cette procédure de calcul .
    Mais si je duplique 8fois la classe C1, j'aurai les mêmes échantillons,
    sauf si vous voulez dire qu'avec la précision qu'offre MATLAB, on ne tombera jamais sur les mêmes instances exactement??????
    Si c'est ça, je suis tout a fait d'accord.
    Merci.
    Cordialement

  12. #12
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Non, je veux juste dire qu'il faut impérativement avoir deux échantillons de même taille lors de l'apprentissage.
    Et que lorsque l'on duplique, il est bien de ne pas favoriser certains individus, sauf cas précis.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  13. #13
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    Bonsoir
    Oui bien sur, 2 échantillons de même dimension.
    Mais je n'ai pas compris ta méthode de duplication, je pensé que c’était une simple concaténation. Y aura t-il une autre méthode??
    Ex: X=[1 2 3]; Il devient X=[1 2 3; 1 2 3; 1 2 3; 1 2 3] si bien sur on a de l'autre cote une matrice de données de dimension 3*4.
    Pour faire un bon apprentissage .

    Merci.

    Cordialement

  14. #14
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    ... on duplique les individus.
    Admettons que :
    - C1 soit [1 2 3]
    - C2 contienne 8 individus.
    - on duplique une fois C1 => [1 2 3 1 2 3]
    - on tire aléatoirement les deux individus manquant pour équilibrer [1 2 3 1 2 3 2 3 ] (par exemple).

    Je ne vois pas le rapport avec la taille de la matrice. Là on parle d'individus.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  15. #15
    Membre habitué Avatar de abidineb
    Inscrit en
    Septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 298
    Points : 132
    Points
    132
    Par défaut
    J'ai tous saisi, merci beaucoup.
    Il faut juste savoir qu'on duplique les individus et leurs étiquettes.
    .
    Merci
    Cordialement

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Une base de données pour les nuls (débutant)
    Par Judasboy dans le forum Débuter
    Réponses: 19
    Dernier message: 01/12/2020, 13h31
  2. Réponses: 2
    Dernier message: 24/11/2012, 13h51
  3. [Smarty] Attribuer une class en fonction d'un résultat avec une variable
    Par kitten13 dans le forum Bibliothèques et frameworks
    Réponses: 1
    Dernier message: 25/09/2008, 20h03
  4. Réponses: 2
    Dernier message: 22/02/2007, 19h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo