IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Kmeans avec R


Sujet :

R

  1. #1
    Membre régulier
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2011
    Messages
    210
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juin 2011
    Messages : 210
    Points : 79
    Points
    79
    Par défaut Kmeans avec R
    Salut les amis,

    J'ai un souci avec la méthode des Kmeans sur R. En effet, j'ai des données avec lesquelles j'ai fait une CAH (Classification Ascendante Hierarchique). J'obtiens une segmentation en 7 groupes. Lorsque je fais mon kmeans, j'obtiens des résultats, mais lorsque je le refais, j'obtiens des résultats différents. Comment faire pour obtenir un même et unique résultat stable ?
    Voici mon code:

    CAH :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
     
    Unlink('R.data')
    donnees=read.csv2(choose.files(),header=T)
    str(donnees)
    donnees <- lapply(donnees, FUN = as.numeric) 
    donnees <- as.data.frame(donnees)
    attach(donnees)
    names(donnees)
    dc <- dist(donnees, method ="euclidean", diag=FALSE, upper=FALSE)
    library(cluster)
    hier <- hclust(dc,"ward")
    plot(hier)
    plot(rev(hier$height), type="h",ylab="hauteurs", xlim=c(1,50), ylim=c(1,500000))
    cah7<-cutree(hier,7)
    cah7
    donnees.cah <- cbind.data.frame(donnees, as.factor(cah7))
    names(donnees.cah)
    colnames(donnees.cah)[23] <- "CAH7"
    names(donnees.cah)
    library(FactoMineR)
    catdes(donnees.cah,num.var=23)
    KMEANS
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    classe <- kmeans(scale(donnees), centers=7)
    classe

  2. #2
    Membre habitué
    Inscrit en
    Mars 2009
    Messages
    94
    Détails du profil
    Informations forums :
    Inscription : Mars 2009
    Messages : 94
    Points : 147
    Points
    147
    Par défaut
    Le problème ne vient pas du code mais du Kmeans en lui même.
    La première étape du kmeans consiste à générer k points aléatoirement. Il n'est donc pas étonnant d'obtenir des résultats légèrement différents à la fin.

  3. #3
    Membre régulier
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2011
    Messages
    210
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juin 2011
    Messages : 210
    Points : 79
    Points
    79
    Par défaut
    Salut,

    Pourrais-tu être plus explicite ?
    K points aléatoires ! K est à fixer au hasard ?
    Pourrais-tu me suggérer une solution de code stp ?

  4. #4
    Membre habitué
    Inscrit en
    Mars 2009
    Messages
    94
    Détails du profil
    Informations forums :
    Inscription : Mars 2009
    Messages : 94
    Points : 147
    Points
    147
    Par défaut
    La première étape du Kmeans consiste à choisir aléatoirement k points (ici k=7) dans votre jeu de données afin de les utiliser comme "means" (moyenne ou centroid) ensuite les points sont assignés au centroid le plus proche. Ensuite un nouveau centroid est calculé, on on y assigne les points les plus proches etc...... jusqu’à ce que l'algorithme converge vers une solution.
    Voila pourquoi tu obtiens des résultats différents, le résultat final dépendra de l'étape d'initialisation. Je t'encourage à lire la page wiki pour plus d'informations http://en.wikipedia.org/wiki/K-means_clustering

  5. #5
    Membre régulier
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2011
    Messages
    210
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juin 2011
    Messages : 210
    Points : 79
    Points
    79
    Par défaut
    J'avais compris la théorie ! Mais mon problème, c'est comment m'y prendre en terme de code ???

  6. #6
    Membre habitué
    Inscrit en
    Mars 2009
    Messages
    94
    Détails du profil
    Informations forums :
    Inscription : Mars 2009
    Messages : 94
    Points : 147
    Points
    147
    Par défaut
    Citation Envoyé par lemzo84 Voir le message
    J'avais compris la théorie ! Mais mon problème, c'est comment m'y prendre en terme de code ???
    A ma connaissance, tu ne peux rien faire. Tu veux faire quoi ? Recoder un kmeans ? Ce n'est pas un problème de code, mais de méthodologie. Change d'algorithme de classification. Clustering Hiérarchique, consensus clustering,...

  7. #7
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Peut-être qu'en fixant une "graine" pour la génération de nombres aléatoires, l'algorithme des kmeans prend toujours les mêmes centres initiaux ? Aucune idée mais peut-être à tester...

    Pour fixer cela, par exemple :

    Sinon effectivement, choisir une autre méthode de classification comme le suggère tomaprice.


    Bonne continuation


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  8. #8
    Membre régulier
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2011
    Messages
    210
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juin 2011
    Messages : 210
    Points : 79
    Points
    79
    Par défaut
    Merci pour votre aide. Je vais essayer d'autres méthodes.

  9. #9
    Membre du Club
    Homme Profil pro
    Enseignant Chercheur
    Inscrit en
    Septembre 2012
    Messages
    118
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Enseignant Chercheur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2012
    Messages : 118
    Points : 64
    Points
    64
    Par défaut
    Bonjour,
    K-means appartient à la famille de classification par partitionnement, et c'est tout à fait normal que tu trouves des résultats différents parce que dés le début les centres sont choisis aléatoirement, ben ici pas une grande différence.
    Si vous voulez des algorithmes de la même famille c'est-à-dire la classification par partitionnement, vous pouvez utiliser k-mediods, CLARANS.
    Sinon il y a une infinité d'algorithmes comme DIANA, PAM, DBSCAN, OPTICS, CURE, ROCK, BIRCH et CHAMELEON.

  10. #10
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2012
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Octobre 2012
    Messages : 23
    Points : 31
    Points
    31
    Par défaut
    Juste une petite remarque, avec l'option centers tu peux choisir les centres avec lesquels tu vas commencer ton algorithme kmeans.
    Et alors, l'algorithme devient complètement déterministe.
    Tu as fais une classification CAH auparavant, tu peux éventuellement utiliser le résultat de ta classification CAH pour choisir tes centres

  11. #11
    Membre actif
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Points : 288
    Points
    288
    Par défaut
    Tu peux commencer ton analyse avec un HClustering pour voir une idée globale sur la distribution de tes points dans les classes, ici tu as par exemple les indices de silhouette qui te permettent de fixer un bon nombre de branche de ton arbre hierarchique, après tu utiliser cette information comme "k" de ton k-means.
    « Aucun homme ne peut rien vous révéler sinon ce qui repose déjà à demi endormi dans l'aube de votre connaissance»

    « No man can reveal to you aught but that which already lies half asleep in the dawning of your knowledge »_(¯`·.__-Alg3ri4nH4ck3r-__.·´¯)_

  12. #12
    Membre du Club
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Points : 58
    Points
    58
    Par défaut
    De façon "générale" j'aurai tendance à faire un k-means puis de faire une CAH mais pas l'inverse.

    Ces méthodes sont certes dites "descriptives" il ne faut pas non plus en attendre autre chose que ce qu'elles font (ici attendre que le k-means ne change pas ses centres de classe si j'ai bien suivi).
    Bref pour moi c'est pas un problème de code mais bien de "théorie" ou de "compréhension" de la méthode.

    Pour un rappel sur les méthodes intéressantes de classification/classement regardez la page personnelle de Stéphane Tuffery, vraiment très bien fait ces slides!

    Bon courage,

    Hollow

  13. #13
    Nouveau Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2014
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juin 2014
    Messages : 1
    Points : 0
    Points
    0
    Par défaut
    Avec la fonction kmeans, il y a l'option nstart : au plus il est grand, au plus l'algorithme converge (en fait, il se répète nstart fois).
    Je ne sais par contre pas quelle partition R choisit, il me semble que c'est l'une de celles ayant une variance intra-classe la plus faible possible.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Débutant] classification d'image avec Kmeans
    Par moha_namb dans le forum Images
    Réponses: 9
    Dernier message: 06/03/2015, 23h37
  2. Réponses: 1
    Dernier message: 20/05/2013, 13h46
  3. classification avec kmeans
    Par automa dans le forum Images
    Réponses: 17
    Dernier message: 21/05/2010, 11h11
  4. problème avec kmeans
    Par salseropom dans le forum MATLAB
    Réponses: 3
    Dernier message: 18/09/2009, 10h00
  5. Réponses: 1
    Dernier message: 30/06/2009, 11h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo