IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Matrice distance et kmeans


Sujet :

R

  1. #1
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut Matrice distance et kmeans
    Bonjour,

    j'ai une matrice symetrique de distance entre une liste d'objets:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
               ob1     ob2       .        .       .         obn
    ob1        0     0.2        .          .       .       0.5
    ob2        0.2      0                                   0.3
    .
    .
    .
    obn       0.5     0.3      .         .      .        0
    Est-il possible de lancer l'algorithme Kmeans sur cette matrice sous R?
    Si oui, pourriez vous s'il vous plait me donner un petit exemple d'instruction à taper sous R car je suis vraiment débutant.

    Merci d'avance

  2. #2
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    Bonjour,

    Il existe de nombreuses fonctions sous R qui font du kmeans ou assimilé.
    La plupart utilisent les données brutes (celles qui ont servi à calculer ta matrice de distance).

    Il y a plusieurs cas de figure :
    1. tu dispose des données brutes... tu as l'embarras du choix (librairies stat, cluster, cclust,...)
    2. tu ne dispose pas des données brutes...
      • tu regardes du côté des fonctions pam ou clara de la librairie cluster (des versions plus robustes des kmeans, je crois) qui acceptent les matrices de distances.
      • les distances sont euclidiennes ; tu peux également utiliser la méthode de Principal Coordinate Analysis (dudi.pco de la librairie ade4 par exemple) qui te calcule les coordonnées dans un espace euclidien d'après une matrice de distance... et là tu as à nouveau l'embarras du choix.

    Il est donc nécessaire d'avoir davantage d'info sur ce dont tu dispose pour bien t'orienter.

  3. #3
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut
    Salut petitpoisson,
    Merci pour la réponse,
    Le gros problème dans mon cas c'est j'ai pas de matrice (Objets, Attributs) mais plutôt matrice genre Relation(Objets,Objets), donc je ne sais pas si c'est nécessaire de passer vers une matrice (objet,attribut) et dans ce cas je ne sais pas comment faire.
    Sinon tout ce que je dispose pour l'instant c'est cette matrice (objet,objet) que j'obtient d'un autre processus.

    Merci à l'avance.

    Citation Envoyé par pitipoisson Voir le message
    Bonjour,

    Il existe de nombreuses fonctions sous R qui font du kmeans ou assimilé.
    La plupart utilisent les données brutes (celles qui ont servi à calculer ta matrice de distance).

    Il y a plusieurs cas de figure :
    1. tu dispose des données brutes... tu as l'embarras du choix (librairies stat, cluster, cclust,...)
    2. tu ne dispose pas des données brutes...
      • tu regardes du côté des fonctions pam ou clara de la librairie cluster (des versions plus robustes des kmeans, je crois) qui acceptent les matrices de distances.
      • les distances sont euclidiennes ; tu peux également utiliser la méthode de Principal Coordinate Analysis (dudi.pco de la librairie ade4 par exemple) qui te calcule les coordonnées dans un espace euclidien d'après une matrice de distance... et là tu as à nouveau l'embarras du choix.

    Il est donc nécessaire d'avoir davantage d'info sur ce dont tu dispose pour bien t'orienter.

  4. #4
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    OK ça correspond au second cas, mais de quel type de distance s'agit-il ?

  5. #5
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut
    Re,

    C'est une distance euclidienne en fait .

    merci pour ton help

  6. #6
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    Tu as donc le choix entre les deux solutions du point 2. À toi de voir quel est l'algorithme qui correspond le mieux à ce que tu veux (ou dois) faire.

    Pour obtenir l'aide des fonctions :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    > library(stats)
    > ?kmeans
    et
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    > library(cluster)
    > ?clara
    > ?pam
    Tu y trouveras des références qui décrivent les algorithmes.

  7. #7
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut
    Salut,
    Merci pour tes réponses,

    En effet j'ai jeté un coup d'oeil sur ces fonction (pam, fanny), ce pendant j'ai une toute petite question:

    Est ce que le fait de donner en parametre une matrice genre (Objet x Objet) n'affecte pas le processus, parce que j'ai comme l'impression qu'ils reçoient en entrée une matrice type (Objet x attributs).?

  8. #8
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    Citation Envoyé par dz_robotix Voir le message
    Est ce que le fait de donner en parametre une matrice genre (Objet x Objet) n'affecte pas le processus, parce que j'ai comme l'impression qu'ils reçoient en entrée une matrice type (Objet x attributs).?
    Citation Envoyé par ?fanny
    ...
    Arguments:

    x: data matrix or data frame, or dissimilarity matrix or object,
    depending on the value of the ‘diss’ argument.
    ...
    Ces fonctions acceptent les deux.

    Par contre, je suppose que si tu récupère la matrice depuis un processus externe tu dois avoir un objet de classe matrix. Dans ce cas, pour éviter une erreur ou - pire - des résultats erronés, tu dois d'abord la transformer en un objet de classe dist

  9. #9
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut
    Citation Envoyé par pitipoisson Voir le message

    Par contre, je suppose que si tu récupère la matrice depuis un processus externe tu dois avoir un objet de classe matrix. Dans ce cas, pour éviter une erreur ou - pire - des résultats erronés, tu dois d'abord la transformer en un objet de classe dist
    Salut,

    En effet, c'est ce que j'ai remarqué en testant les fonctions cmeans et pam sur les deux matrices (originale , et dm<-as.dist(originale) ).
    Ceci est dû à quoi en fait? car après l'application de as.dist(), c'est juste le top + la diagonale qui saute!?

    Sinon j'ai une petite dernière question: j'ai fais la fonction clusplot() pour afficher les clusters, mais y-a t'il un argument pour donner un label à un cluster? et peut-on labellisée aussi les objets des clusters dans la figures?

    Mes remerciements anticipés.

  10. #10
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    Citation Envoyé par dz_robotix Voir le message
    Ceci est dû à quoi en fait? car après l'application de as.dist(), c'est juste le top + la diagonale qui saute!?
    Pas exactement. Les options pour la diagonale ou la matrice triangulaire ne concernent que l'affichage.
    Ce que cette fonction fait en plus (et c'est en fait l'essentiel) c'est d'incorporer la matrice dans un objet de classe dist.

    Les fonctions pam ou fanny vont tester la classe de l'objet et
    • si c'est data.frame ou matrix, elle vont considérer que ce sont des données de type individus x attributs.
    • si c'est dist ou dissimilarity, elles vont le traiter comme une matrice de distance.

    Il est donc primordiale d'utiliser as.dist() dans ton cas.

  11. #11
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    385
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 385
    Par défaut
    Salut Pitipoisson,

    Je reprend la discussion, car j'amerais bien comprendre comment ça marche le repositionnement des barycentres après une étape d'execution. En fait dans la formule classique de l'algorithme, apres chaque étape, et pour repositionner le centre, on calcule la distance entre tout les élements du cluster avec l'ancien centre, or dans mon cas j'ai au départ une matrice de distance, donc je n'ai pas compris comment il pourra recalculer la distance entre le nouveau centre généré et les autres éléments du clusters sachant que ce nouveau centre ne figure pas dans la matrice de distance et il n'ya pas de moyen de calculer la distance entre lui et les élements du clusters.!?

    Merci d'avance

    Citation Envoyé par pitipoisson Voir le message
    Pas exactement. Les options pour la diagonale ou la matrice triangulaire ne concernent que l'affichage.
    Ce que cette fonction fait en plus (et c'est en fait l'essentiel) c'est d'incorporer la matrice dans un objet de classe dist.

    Les fonctions pam ou fanny vont tester la classe de l'objet et
    • si c'est data.frame ou matrix, elle vont considérer que ce sont des données de type individus x attributs.
    • si c'est dist ou dissimilarity, elles vont le traiter comme une matrice de distance.

    Il est donc primordiale d'utiliser as.dist() dans ton cas.

  12. #12
    Membre Expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Par défaut
    Bonjour,

    Bonne question... à laquelle je n'ai pas de réponse certaine.

    Je soupçonne ces fonctions de faire une pco (voir plus haut) et d'en-suite utiliser un algorithme k-means.
    Il faudrait se plonger dans le code de ces fonctions pour vérifier.

Discussions similaires

  1. Calcul de la distance Mahalanobis pour une matrice
    Par mihaispr dans le forum MATLAB
    Réponses: 9
    Dernier message: 14/06/2011, 22h50
  2. calculer la distance focale à partir de la matrice de calibration
    Par mar1985 dans le forum Traitement d'images
    Réponses: 5
    Dernier message: 22/04/2009, 19h56
  3. [E-07] aide pour une matrice des distances
    Par pheron dans le forum Macros et VBA Excel
    Réponses: 17
    Dernier message: 27/11/2008, 22h24
  4. Distance euclidienne entre 2 matrices
    Par azerty09 dans le forum MATLAB
    Réponses: 1
    Dernier message: 19/02/2008, 18h43
  5. Extraction de valeurs - matrice des distances
    Par progfou dans le forum Algorithmes et structures de données
    Réponses: 21
    Dernier message: 06/04/2007, 17h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo