Classification sans classe

**sephiroth_51** · 19/03/2015, 18h30

Bonjour,

Je me penche sur une problématique que j'ai du mal à résoudre. Je dispose de deux jeux de donnée :
un jeu de donnée d'un population dont je sais quelle appartient à la classe 1
un autre jeu de donnée qui contient indifféremment des populations de la classe 1 et 2

Je cherche ici à établir un scoring d'appartenance à la classe 1 dans le deuxième jeu de donnée.

Y à t-il un modèle performant sur cette problématique ?

Cdt.

**Theta** · 20/03/2015, 13h14

Sur une seule variable le problème est assez simple. Il suffit de calculer des seuils au delà desquels il y a peu d'individus dans le premier jeu de données, soit en utilisant des quantiles (0.025 et 0.975 par ex), soit en approximant la distribution par une loi normale (ou autre).

Par contre sur plusieurs variables ça se complique, et je ne connais pas la méthode à utiliser (même si j'ai 2 ou 3 vagues idées).

**sephiroth_51** · 20/03/2015, 15h40

Salut,

Des variables, il y en a une 20e environ, ce qui je suis d'accord avec toi, complique le problème vis à vis d'un problème à 1 variable. Quels sont tes pistes ?

Cdt.

**Theta** · 20/03/2015, 16h50

Mon idée serait de centrer-réduire les variables puis :
-soit de calculer pour chaque individu la distance au "barycentre" de l'ensemble des individus (qui est l'origine vu que les variables sont centrées).
-soit de calculer pour chaque individu la distance moyenne entre cet individu et chaque autre.
Du coup on se ramène à une seule variable et on peut appliquer la méthode dont je parlait précédemment.

On peut également passer par une ACP, surtout si les variables sont corrélées entre elles (soit on ne garde qu'un axe, soit on en garde plusieurs et calcule les distance pour repasser à une variable).

Mais il faudrait l’avis de quelqu'un de plus calé en stats que moi, si ça se trouve il existe une méthode plus propre pour ce problème.

**Theta** · 20/03/2015, 16h56

D'ailleurs j'y pense, si tu fais une CAH sur l'ensemble des données, puis que tu regarde quelle "branche" contient 95% (par exemple) des individus du premier jeu de données, on peut considérer que les individu du 2ème jeu de données qui sont sur cette branche appartiennent au même groupe.
Ça reviens un peu au même que mon histoire de distances.

**Haache** · 18/04/2015, 00h14

Bonjour, je te propose une analyse factorielle.

Tu utilises une méthode de partitionnement en deux classes (classification non hiérarchique) avec la PROC FASTCLUS. Tu fais ceci sur les données dont les classes ne sont pas connues. Donc la procédure va te permettre de répartir les individus en deux classes. Les méthodes de partitionnement sont meilleures à la CAH quand le nombre de classes est a priori connu. Ici on sait que c'est deux classes donc il serait mieux de faire recours au méthode de partitionnement.

Puisque tu as fait ceci sur les données dont les classes ne sont pas connues, tu auras donc sur ces données, une variable classe (qui prend les valeurs classe 1 classe 2, c'est à dire ce que tu viens d'estimer) et tes variables quantitatives (la vingtaine dont tu disposais). Le problème est que, des deux classes, tu ne sais pas la classe qui correspond à la classe des données que tu connais... Mais c'est simple tu fais une analyse discriminante sur les données 2 (celles dont tu as estimés les classes) pour prédire les données 1 que tu connaissais, ou même une régression pour faire la prévision de ce que tu connaissais (données 1)... La classe à laquelle la majorité des données 1 seront affectées seront affectées, sera la classe 1 et l'autre la classe 2...

ATTENTION Il faut être sûr que tes variables dont tu dispose sont liées aux classes sinon, les estimations seront biaisés......

Cordialement,

Classification sans classe

Méthodes exploratoires

Discussions similaires

Partager

Partager