Précédent   Forum du club des développeurs et IT Pro > Autres langages > Algorithmes > Intelligence artificielle
Intelligence artificielle Forum d'entraide sur l'intelligence artificielle. Avant de poster : Cours d'intelligence artificielle
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse
 
Outils de la discussion
Publicité
'
Vieux 25/08/2012, 14h10   #1
abidineb
Membre régulier
 
Avatar de abidineb
 
Inscription : septembre 2008
Messages : 298
Détails du profil
Informations forums :
Inscription : septembre 2008
Messages : 298
Points : 94
Points : 94
Par défaut Problème de classes déséquilibrées

Bonjour

Mon probleme se trouve dans la classification des échantillons de classes non équilibrées, pour ce faire j'utilise un sur-échantillonnage des données, par exemple si j'ai le vecteur de données de dimension (5) a=[1 0 1 1 1] et de taille 500, est ce qu'il suffit de produire ce vecteur par exemple 3500 fois dans la base de données si l'autre classe a 4000 échantillons ?????????? s'il vous plait, pourriez vous m'aider a résoudre ce probleme??????????

Cordialement
abidineb est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 27/08/2012, 13h43   #2
Alexis.M
Membre chevronné
 
Alexis
Doctorant en informatique
Inscription : juin 2009
Messages : 428
Détails du profil
Informations personnelles :
Nom : Alexis
Localisation : France

Informations professionnelles :
Activité : Doctorant en informatique

Informations forums :
Inscription : juin 2009
Messages : 428
Points : 700
Points : 700
L'explication de ton problème n'est pas très claire: qu'appelles-tu 'taille' et 'dimension'.

Quel algorithme de classification utilises-tu ?

Pour compenser un jeu de données désiquilibré il y a deux méthodes principalement utilisées:
  1. Sous-échantillonner la classe ayant le plus gros effectif
  2. utiliser un coefficient pour pondérer les échantillons en fonction de l'effectif de leur classe
Alexis.M est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 27/08/2012, 22h55   #3
abidineb
Membre régulier
 
Avatar de abidineb
 
Inscription : septembre 2008
Messages : 298
Détails du profil
Informations forums :
Inscription : septembre 2008
Messages : 298
Points : 94
Points : 94
Bonjour

Merci pour ta réponse clairvoyante. La dimension du vecteur est 5. La taille est le nombre d’échantillons de départ 500 contre 4000.

L'algorithme est k-PPV (k-plus-proches voisins).
J'aimerai savoir plus sur le sur-échantillonnage qui est la démarche opposée du sous-échantillonnage.

Merci.

Cordialement
abidineb est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 06/09/2012, 14h30   #4
ToTo13
Modérateur
 
Avatar de ToTo13
 
Homme Guillaume
Ingénieur de Recherche
Inscription : janvier 2006
Messages : 4 780
Détails du profil
Informations personnelles :
Nom : Homme Guillaume
Âge : 34
Localisation : Etats-Unis

Informations professionnelles :
Activité : Ingénieur de Recherche
Secteur : Santé

Informations forums :
Inscription : janvier 2006
Messages : 4 780
Points : 7 005
Points : 7 005
Citation:
Envoyé par abidineb Voir le message
La dimension du vecteur est 5. La taille est le nombre d’échantillons de départ 500 contre 4000.
On parle aussi souvent d'"individus", donc dans ce cas tu aurais 500 individus contre 4000.



Citation:
Envoyé par abidineb Voir le message
L'algorithme est k-PPV (k-plus-proches voisins).
C'est un des algorithmes de classement qui gère plutôt bien les classes déséquilibrées :-)
Si tu souhaites faire un 1-PPV, alors il est inutile d'équilibre tes classes.
si k est différent de 1, tu peux simplement pondérer les voisins que tu trouves. C'est-à-dire dans ton cas, lorsque tu trouves un voisin de la classe minoritaire tu attributs un poids de 8 et si c'est un voisin de la classe majoritaire tu mets 1. La classe d'appartenance est alors celle qui a le plus grand score à la fin.



Citation:
Envoyé par abidineb Voir le message
J'aimerai savoir plus sur le sur-échantillonnage qui est la démarche opposée du sous-échantillonnage.
C'est cela :
- sur-échantillonnage (souvent préféré afin d'éviter la perte de données) => dupliquer les individus de la classe minoritaire jusqu'à ce que les classes soient équilibrées.
- sous-échantillonnage => supprimer aléatoirement des individus de la classe majoritaire jusqu'à ce que les deux classes soient équilibrées.
__________________
Consignes aux jeunes padawans : une image vaut 1000 mots !
- Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe correcteur orthographique pour FiReFox), mettre les ACCENTS et les BALISES => ECRIRE clairement et en Français tu DOIS.
- Le coté obscur je sens dans le MP => Tous tes MP je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
- ton poste tu dois marquer quand la bonne réponse tu as obtenu.
ToTo13 est actuellement connecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/02/2013, 20h13   #5
abidineb
Membre régulier
 
Avatar de abidineb
 
Inscription : septembre 2008
Messages : 298
Détails du profil
Informations forums :
Inscription : septembre 2008
Messages : 298
Points : 94
Points : 94
Merci Beaucoup .

Problème résolu.

Cordialement
abidineb est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Cette discussion est résolue.
Outils de la discussion

Navigation rapide


Fuseau horaire GMT +2. Il est actuellement 00h26.


 
 
 
 
Partenaires

Hébergement Web