Clustering avec probabilité d'appartenance des individus aux groupes

**Theta** · 01/10/2015, 12h50

Bonjour.

Je cherche à faire un clustering sur une matrice de données avec ~250 individus et ~2000 dimensions.

Les k-means ou la classification ascendante hiérarchique donnent des résultats satisfaisants.

Cependant, avec ces méthodes, les points intermédiaires, qui sont à la limite de plusieurs groupes, sont attribués à un seul de ces groupes, ce qui est assez gênant pour ce que je voudrait faire avec ces données.

Je crois qu'il existe des algorithmes qui permettent d'attribuer à chaque point une probabilité d'appartenir à chaque groupe. Par exemple, si un point est entre les groupes A et B, plutôt que de le mettre dans l'un ou l'autre, je voudrait avoir quelque chose du genre "40% d'appartenance au groupe A et 60% d'appartenance au groupe B".

Connaitriez vous le nom d'un ou plusieurs algos qui permettent de faire cela?

Merci d'avance.

**dev_ggy** · 01/10/2015, 16h19

Bonjour Theta,

Ne confond tu pas les méthodes supervisé et non supervisé.

Dans le premier cas tes classes sont déjà définis. En faisant de la classification automatiques, tu peux donner un probabilité a chaque d'entre elle en fonction de tes paramètres.

Dans le cas non supervisé (K-mean ...) c'est toi qui créais tes classes et aucune règle entre elles n'existe que dans la mesure ou c'est toi qui la définis.

Ce qui serait le plus proche d'une idée de probabilité serait peut-être le Fuzzy-Kmean dont je ne suis absolument pas expert et je ne pourrait pas t'aider sur ce sujet.

Bonne continuation.

**Theta** · 02/10/2015, 10h22

Merci pour ta réponse.

Le Fuzzy C-Means semble en effet correspondre à ce que je cherche, je vais essayer avec ça.

**Theta** · 05/10/2015, 16h34

J'ai testé les fuzzy C-means.

Sur des données de test avec 2 variables, ça marche plutôt bien.

Sur mes vraies données (2000+ variables), tous les centres convergent vers le même point. Du coup si je demande par exemple 10 clusters, le résultat va être à peu de choses près que chaque point a une appartenance de 10% à chaque cluster, ce qui ne fait pas avancer le schmilblick.

Me doutant que ça venait du trop grand nombre de dimensions de mes données, j'ai essayé la même méthode avec la table des corrélations entre mes individus (du coup ~250 dimensions), et là ça marche correctement, avec des groupes semblables à ceux que j'avais avec les k-means.

Clustering avec probabilité d'appartenance des individus aux groupes

Méthodes exploratoires

Discussions similaires

Partager

Partager