Publicité
+ Répondre à la discussion
Affichage des résultats 1 à 5 sur 5
  1. #1
    Membre habitué Avatar de abidineb
    Inscrit en
    septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : septembre 2008
    Messages : 298
    Points : 102
    Points
    102

    Par défaut Problème de classes déséquilibrées

    Bonjour

    Mon probleme se trouve dans la classification des échantillons de classes non équilibrées, pour ce faire j'utilise un sur-échantillonnage des données, par exemple si j'ai le vecteur de données de dimension (5) a=[1 0 1 1 1] et de taille 500, est ce qu'il suffit de produire ce vecteur par exemple 3500 fois dans la base de données si l'autre classe a 4000 échantillons ?????????? s'il vous plait, pourriez vous m'aider a résoudre ce probleme??????????

    Cordialement

  2. #2
    Membre chevronné
    Profil pro Alexis
    Ingénieur de recherche en informatique
    Inscrit en
    juin 2009
    Messages
    435
    Détails du profil
    Informations personnelles :
    Nom : Alexis
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche en informatique

    Informations forums :
    Inscription : juin 2009
    Messages : 435
    Points : 705
    Points
    705

    Par défaut

    L'explication de ton problème n'est pas très claire: qu'appelles-tu 'taille' et 'dimension'.

    Quel algorithme de classification utilises-tu ?

    Pour compenser un jeu de données désiquilibré il y a deux méthodes principalement utilisées:
    1. Sous-échantillonner la classe ayant le plus gros effectif
    2. utiliser un coefficient pour pondérer les échantillons en fonction de l'effectif de leur classe

  3. #3
    Membre habitué Avatar de abidineb
    Inscrit en
    septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : septembre 2008
    Messages : 298
    Points : 102
    Points
    102

    Par défaut

    Bonjour

    Merci pour ta réponse clairvoyante. La dimension du vecteur est 5. La taille est le nombre d’échantillons de départ 500 contre 4000.

    L'algorithme est k-PPV (k-plus-proches voisins).
    J'aimerai savoir plus sur le sur-échantillonnage qui est la démarche opposée du sous-échantillonnage.

    Merci.

    Cordialement

  4. #4
    Modérateur
    Avatar de ToTo13
    Homme Profil pro Guillaume
    Ingénieur de Recherche
    Inscrit en
    janvier 2006
    Messages
    5 223
    Détails du profil
    Informations personnelles :
    Nom : Homme Guillaume
    Âge : 35
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Ingénieur de Recherche
    Secteur : Santé

    Informations forums :
    Inscription : janvier 2006
    Messages : 5 223
    Points : 8 748
    Points
    8 748

    Par défaut

    Citation Envoyé par abidineb Voir le message
    La dimension du vecteur est 5. La taille est le nombre d’échantillons de départ 500 contre 4000.
    On parle aussi souvent d'"individus", donc dans ce cas tu aurais 500 individus contre 4000.



    Citation Envoyé par abidineb Voir le message
    L'algorithme est k-PPV (k-plus-proches voisins).
    C'est un des algorithmes de classement qui gère plutôt bien les classes déséquilibrées :-)
    Si tu souhaites faire un 1-PPV, alors il est inutile d'équilibre tes classes.
    si k est différent de 1, tu peux simplement pondérer les voisins que tu trouves. C'est-à-dire dans ton cas, lorsque tu trouves un voisin de la classe minoritaire tu attributs un poids de 8 et si c'est un voisin de la classe majoritaire tu mets 1. La classe d'appartenance est alors celle qui a le plus grand score à la fin.



    Citation Envoyé par abidineb Voir le message
    J'aimerai savoir plus sur le sur-échantillonnage qui est la démarche opposée du sous-échantillonnage.
    C'est cela :
    - sur-échantillonnage (souvent préféré afin d'éviter la perte de données) => dupliquer les individus de la classe minoritaire jusqu'à ce que les classes soient équilibrées.
    - sous-échantillonnage => supprimer aléatoirement des individus de la classe majoritaire jusqu'à ce que les deux classes soient équilibrées.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  5. #5
    Membre habitué Avatar de abidineb
    Inscrit en
    septembre 2008
    Messages
    298
    Détails du profil
    Informations forums :
    Inscription : septembre 2008
    Messages : 298
    Points : 102
    Points
    102

    Par défaut

    Merci Beaucoup .

    Problème résolu.

    Cordialement

+ Répondre à la discussion
Cette discussion est résolue.

Liens sociaux

Règles de messages

  • Vous ne pouvez pas créer de nouvelles discussions
  • Vous ne pouvez pas envoyer des réponses
  • Vous ne pouvez pas envoyer des pièces jointes
  • Vous ne pouvez pas modifier vos messages
  •