Kmeans avec R

**lemzo84** · 22/01/2013, 00h27

Salut les amis,

J'ai un souci avec la méthode des Kmeans sur R. En effet, j'ai des données avec lesquelles j'ai fait une CAH (Classification Ascendante Hierarchique). J'obtiens une segmentation en 7 groupes. Lorsque je fais mon kmeans, j'obtiens des résultats, mais lorsque je le refais, j'obtiens des résultats différents. Comment faire pour obtenir un même et unique résultat stable ?

Voici mon code:

CAH :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
Unlink('R.data')
donnees=read.csv2(choose.files(),header=T)
str(donnees)
donnees <- lapply(donnees, FUN = as.numeric) 
donnees <- as.data.frame(donnees)
attach(donnees)
names(donnees)
dc <- dist(donnees, method ="euclidean", diag=FALSE, upper=FALSE)
library(cluster)
hier <- hclust(dc,"ward")
plot(hier)
plot(rev(hier$height), type="h",ylab="hauteurs", xlim=c(1,50), ylim=c(1,500000))
cah7<-cutree(hier,7)
cah7
donnees.cah <- cbind.data.frame(donnees, as.factor(cah7))
names(donnees.cah)
colnames(donnees.cah)[23] <- "CAH7"
names(donnees.cah)
library(FactoMineR)
catdes(donnees.cah,num.var=23)

KMEANS

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
classe <- kmeans(scale(donnees), centers=7)
classe

**tomaprice** · 22/01/2013, 09h18

Le problème ne vient pas du code mais du Kmeans en lui même.
La première étape du kmeans consiste à générer k points aléatoirement. Il n'est donc pas étonnant d'obtenir des résultats légèrement différents à la fin.

**lemzo84** · 22/01/2013, 14h00

Salut,

Pourrais-tu être plus explicite ?
K points aléatoires ! K est à fixer au hasard ?
Pourrais-tu me suggérer une solution de code stp ?

**tomaprice** · 22/01/2013, 14h42

La première étape du Kmeans consiste à choisir aléatoirement k points (ici k=7) dans votre jeu de données afin de les utiliser comme "means" (moyenne ou centroid) ensuite les points sont assignés au centroid le plus proche. Ensuite un nouveau centroid est calculé, on on y assigne les points les plus proches etc...... jusqu’à ce que l'algorithme converge vers une solution.
Voila pourquoi tu obtiens des résultats différents, le résultat final dépendra de l'étape d'initialisation. Je t'encourage à lire la page wiki pour plus d'informations http://en.wikipedia.org/wiki/K-means_clustering

**lemzo84** · 22/01/2013, 15h04

J'avais compris la théorie ! Mais mon problème, c'est comment m'y prendre en terme de code ???

**tomaprice** · 22/01/2013, 15h19

Envoyé par lemzo84

J'avais compris la théorie ! Mais mon problème, c'est comment m'y prendre en terme de code ???

A ma connaissance, tu ne peux rien faire. Tu veux faire quoi ? Recoder un kmeans ? Ce n'est pas un problème de code, mais de méthodologie. Change d'algorithme de classification. Clustering Hiérarchique, consensus clustering,...

**A. D.** · 22/01/2013, 16h17

Peut-être qu'en fixant une "graine" pour la génération de nombres aléatoires, l'algorithme des kmeans prend toujours les mêmes centres initiaux ? Aucune idée mais peut-être à tester...

Pour fixer cela, par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

set.seed(666)

Sinon effectivement, choisir une autre méthode de classification comme le suggère tomaprice.

Bonne continuation

Cordialement,

A.D.

**lemzo84** · 22/01/2013, 18h55

Merci pour votre aide. Je vais essayer d'autres méthodes.

**orland** · 23/01/2013, 09h52

Bonjour,
K-means appartient à la famille de classification par partitionnement, et c'est tout à fait normal que tu trouves des résultats différents parce que dés le début les centres sont choisis aléatoirement, ben ici pas une grande différence.
Si vous voulez des algorithmes de la même famille c'est-à-dire la classification par partitionnement, vous pouvez utiliser k-mediods, CLARANS.
Sinon il y a une infinité d'algorithmes comme DIANA, PAM, DBSCAN, OPTICS, CURE, ROCK, BIRCH et CHAMELEON.

**seb1122** · 31/01/2013, 01h43

Juste une petite remarque, avec l'option centers tu peux choisir les centres avec lesquels tu vas commencer ton algorithme kmeans.
Et alors, l'algorithme devient complètement déterministe.
Tu as fais une classification CAH auparavant, tu peux éventuellement utiliser le résultat de ta classification CAH pour choisir tes centres

**dz_robotix** · 02/02/2013, 19h09

Tu peux commencer ton analyse avec un HClustering pour voir une idée globale sur la distribution de tes points dans les classes, ici tu as par exemple les indices de silhouette qui te permettent de fixer un bon nombre de branche de ton arbre hierarchique, après tu utiliser cette information comme "k" de ton k-means.

**hollowdeadoss** · 13/02/2013, 10h02

De façon "générale" j'aurai tendance à faire un k-means puis de faire une CAH mais pas l'inverse.

Ces méthodes sont certes dites "descriptives" il ne faut pas non plus en attendre autre chose que ce qu'elles font (ici attendre que le k-means ne change pas ses centres de classe si j'ai bien suivi).
Bref pour moi c'est pas un problème de code mais bien de "théorie" ou de "compréhension" de la méthode.

Pour un rappel sur les méthodes intéressantes de classification/classement regardez la page personnelle de Stéphane Tuffery, vraiment très bien fait ces slides!

Bon courage,

Hollow

**cedric.3** · 24/06/2014, 11h44

Avec la fonction kmeans, il y a l'option nstart : au plus il est grand, au plus l'algorithme converge (en fait, il se répète nstart fois).
Je ne sais par contre pas quelle partition R choisit, il me semble que c'est l'une de celles ayant une variance intra-classe la plus faible possible.

Kmeans avec R

R

Discussions similaires

Partager

Partager