K means clustering

**Edisean** · 11/12/2011, 11h22

Bonjour,

Je suis entrain d’implémenter l'algorithme K-means pour repartir une population de points en cluster cependant je rencontre quelques difficultés à la finaliser puisque j'obtiens aussi bien ça que ceci.
Du coup je me demande si la précision de l'algo fait que je n'obtiens pas tout le temps le bon graph ou si c'est parce que j'ai fait une erreur dans mon code.
Pour l'algorithme, je suis l’implémentation suivante:
1 - Random des centroids
2 - Affectation des points à chacun des centroids en utilisant la distance pour déterminer le centroid d'appartenance et calcul des nouveaux centroids
3 - Check si les anciens centroids et les nouveaux centroids sont differents.
4 - répétition de l'étape 2 et 3 jusqu’à ce que les anciens et nouveaux centroids soient les mêmes.

Merci

**pseudocode** · 11/12/2011, 13h36

Ton implémentation est bonne. Les résultats que tu obtiens sont typiques de l'algorithme K-Means.

Comme indiqué dans le lien ci-dessus, tu peux grandement améliorer la segmentation en modifiant la méthode d'affectation des points :
- pour chaque cluster calcul du centre ET de la variance => modélisation d'une distribution gaussienne G(x)
- affectation d'un point selon sa probabilité d'appartenance aux gaussiennes => G1(x) > G2(x), alors x appartient au cluster 1

**Edisean** · 11/12/2011, 17h32

Si j'ai bien compris, une fois que j'ai ma densité de probabilité pour chacun des clusters, j'utilise la règle de Bayle qui va me donner une probabilité d'appartenance à un cluster ??

**pseudocode** · 11/12/2011, 17h41

Envoyé par Edisean

Si j'ai bien compris, une fois que j'ai ma densité de probabilité pour chacun des clusters, j'utilise la règle de Bayle qui va me donner une probabilité d'appartenance à un cluster ??

Si tu veux appliquer strictement la méthode "Expectation–maximization", oui c'est cela.

Sinon, tu peux simplement utiliser la loi de proba (calculée a l'itération précédente) comme distance, en lieu et place de la distance euclidienne.

**Edisean** · 11/12/2011, 20h22

Concernant Bayle, si je veux appliquer la règle à un point je dois bien faire:
dP(x).dP(y) /ensemble(dP(x).dP(y)) avec dP= densité de probabilité lié à un cluster ??

Merci pour tes réponses.

**pseudocode** · 11/12/2011, 20h44

Envoyé par Edisean

Concernant Bayle, si je veux appliquer la règle à un point je dois bien faire:
dP(x).dP(y) /ensemble(dP(x).dP(y)) avec dP= densité de probabilité lié à un cluster ??

Merci pour tes réponses.

Je suppose que tu as séparé la loi de proba en un produit de 2 lois orthogonales, une sur X et une sur Y. Auquel cas, oui c'est bien cela.

K means clustering

Méthodes exploratoires

Vue hybride

Discussions similaires

Partager

Partager