IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Regrouper des libellés avec kmeans


Sujet :

R

  1. #1
    Membre actif
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2012
    Messages
    345
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2012
    Messages : 345
    Points : 249
    Points
    249
    Par défaut Regrouper des libellés avec kmeans
    Bonjour,

    Je fais appel à votre aide car je sèche.

    J'essaie de reduire la taille de ma base de données en regroupant les données semblables mais qui ne sont pas de vrais doublons.

    J'ai par exemple :

    CANCELLATION DATE
    CANCELATION DATE
    CANCELLATON DATE

    que j'aimerais regrouper comme :

    CANCELLATION DATE, par exemple

    Impossible à faire en excel, j'essaie donc d'utiliser les kmeans et de regrouper en fonction de clusters sur R, j'ai l'impression de m'y prendre mal parce que mon code ne donne aucune erreur mais ne fonctionne pourtant pas.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
     
     
    headers = unique(modelTable$HEADERS)
     
    modelTable[, CLUSTER:=integer(nrow(modelTable))]
     
     
    for (h in headers){
    #dt = modelTable
     
      dt = modelTable[h==modelTable$HEADERS]
      header = dt$HEADERS
      headersu = unique(header)
      d = stringdistmatrix(headersu, headersu, method="jw")
     
      distmat = as.dist(d, diag = T)
      if (length(headersu)<=2 ){
        dt[, CLUSTER:=(1:nrow(dt))]
      }else{
     
        k = kmeans(distmat, min(nrow(d)-1, length(headersu)))
        i = 1
        for (a in headersu){
          dt[a==header, CLUSTER:= k$cluster[i]]
          i = i+1
        }
     
      }
      modelTable[h==modelTable$HEADERS, CLUSTER:=dt$CLUSTER]
     
    }
     
    groupTable = unique(modelTable, by=c("HEADERS", "CLUSTER"))
    groupTable[, NBCLUSTERS:=max(CLUSTER), by= "HEADERS"]
    Auriez-vous des pistes ? ou des corrections ?

    Merci par avance
    Lorsque vous avez obtenu une réponse satisfaisante à votre discussion, N'oubliez pas de cliquer sur

    L'erreur n'annule pas la valeur de l'effort accompli.

  2. #2
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour,

    Serait-il possible que vous postiez un petit exemple de données sur lequel reproduire le code fourni ?

    Egalement, vous dîtes n'obtenir aucune erreur mais le code ne fonctionne pas : c'est-à-dire ? Qu'obtenez-vous et que vous attendiez-vous à obtenir ?


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

Discussions similaires

  1. classification des graphes avec kmeans
    Par syki.mail dans le forum MATLAB
    Réponses: 0
    Dernier message: 02/02/2014, 14h15
  2. Réponses: 3
    Dernier message: 02/08/2012, 18h10
  3. Gestion des libellés avec une seule table
    Par scharly3 dans le forum Microsoft BI
    Réponses: 7
    Dernier message: 02/03/2012, 22h41
  4. Réponses: 21
    Dernier message: 02/02/2012, 15h33
  5. Regrouper des lignes avec un INNER JOIN
    Par Barsy dans le forum Langage SQL
    Réponses: 11
    Dernier message: 23/11/2009, 14h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo