IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Implémenter l'algorithme K-means en Java


Sujet :

Java

  1. #1
    Futur Membre du Club
    Femme Profil pro
    Chercheur en informatique
    Inscrit en
    Mai 2011
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2011
    Messages : 3
    Par défaut Implémenter l'algorithme K-means en Java
    Bonjour,

    Dans le but d'une classification, j'ai un fichier "base.txt" en entrée qui représente une base de données ou chaque ligne du fichier qui est sous cette forme (7.7,3.8,6.7,2.2,Iris-virginica) est une donnée à classer.

    J'ai l'intention d'appliquer l'algorithme K-means en Java et j'ai donc récupéré un code en Java.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    // Kmeans.java 
     
    package com.orhandemirel.clustering;
     
    import java.util.Random;
    import java.util.ArrayList;
     
    public class  Kmeans{
     
        private double[][] data;         // data to cluster
        private int numClusters;    // number of clusters
        private double[][] clusterCenters;   // cluster centers
        private int dataSize;               // size of the data
        private int dataDim;                // dimention of the data
        private ArrayList[] clusters;     // calculated clusters
        private double[] clusterVars;        // cluster variances
     
        private double epsilon;
     
        public Kmeans(double[][] data, int numClusters, double[][] clusterCenters)
        {
            dataSize = data.length;
            dataDim = data[0].length;
     
            this.data = data;
     
            this.numClusters = numClusters;
     
            this.clusterCenters = clusterCenters;
     
            clusters = new ArrayList[numClusters];
             for(int i=0;i<numClusters;i++)
            {
                clusters[i] = new ArrayList();
            }
            clusterVars = new double[numClusters];
     
            epsilon = 0.01;
        }
     
        public Kmeans(double[][] data, int numClusters)
        {
            this(data, numClusters, true);
        }
     
        public Kmeans(double[][] data, int numClusters, boolean randomizeCenters)
        {
            dataSize = data.length;
            dataDim = data[0].length;
     
            this.data = data;
     
            this.numClusters = numClusters;
     
            this.clusterCenters =  new double[numClusters][dataDim];
     
            clusters = new ArrayList[numClusters];
            for(int i=0;i<numClusters;i++)
            {
                clusters[i] = new ArrayList();
            }
            clusterVars = new double[numClusters];
     
            epsilon = 0.01;
     
            if(randomizeCenters)
            {
                randomizeCenters(numClusters, data);
            }
        }
     
        private void randomizeCenters(int numClusters, double[][] data) {
            Random r = new Random();
            int[] check = new int[numClusters];
            for (int i = 0; i < numClusters; i++) {
                int rand = r.nextInt(dataSize);
                if (check[i] == 0) {
                    this.clusterCenters[i] = data[rand].clone();
                    check[i] = 1;
                } else {
                    i--;
                }
            }
        }
     
        private void calculateClusterCenters()
        {
            for(int i=0;i<numClusters;i++)
            {
                int clustSize = clusters[i].size();
     
                for(int k= 0; k < dataDim; k++)
                {
     
                    double sum = 0d;
                    for(int j =0; j < clustSize; j ++)
                    {
                        double[] elem = (double[]) clusters[i].get(j);
                        sum += elem[k];
                    }
     
                    clusterCenters[i][k] = sum / clustSize;
                }
            }
        }
     
         private void calculateClusterVars()
        {
            for(int i=0;i<numClusters;i++)
            {
                int clustSize = clusters[i].size();
                Double sum = 0d;
     
                    for(int j =0; j < clustSize; j ++)
                    {
     
                        double[] elem = (double[])clusters[i].get(j);
     
                        for(int k= 0; k < dataDim; k++)
                        {
                            sum += Math.pow( (Double)elem[k] - getClusterCenters()[i][k], 2);
                        }
                    }
     
                clusterVars[i] = sum / clustSize;
            }
        }
     
         public double getTotalVar()
        {
             double total = 0d;
             for(int i=0;i< numClusters;i++)
             {
                 total += clusterVars[i];
             }
     
             return total;
         }
     
         public double[] getClusterVars()
        {
            return  clusterVars;
        }
     
         public ArrayList[] getClusters()
        {
             return clusters;
        }
     
         private void assignData()
        {
            for(int k=0;k<numClusters;k++)
            {
                clusters[k].clear();
            }
     
            for(int i=0; i<dataSize; i++)
            {
     
                int clust = 0;
                double dist = Double.MAX_VALUE;
                double newdist = 0;
     
                for(int j=0; j<numClusters; j++)
                {
                    newdist = distToCenter( data[i], j );
                    if( newdist <= dist )
                    {
                        clust = j;
                        dist = newdist;
                    }
                }
     
                clusters[clust].add(data[i]);
            }
     
        }
     
         private double distToCenter( double[] datum, int j )
        {
             double sum = 0d;
             for(int i=0;i < dataDim; i++)
             {
                 sum += Math.pow(( datum[i] - getClusterCenters()[j][i] ), 2);
             }
     
             return Math.sqrt(sum);
        }
     
          public void calculateClusters()
        {
     
             double var1 = Double.MAX_VALUE;
             double var2;
             double delta;
     
            do
            {
                  calculateClusterCenters();
                  assignData();
                  calculateClusterVars();
                  var2 = getTotalVar();
                  if (Double.isNaN(var2))    // if this happens, there must be some empty clusters
                 {
                     delta = Double.MAX_VALUE;
                     randomizeCenters(numClusters, data);
                     assignData();
                     calculateClusterCenters();
                     calculateClusterVars();
                 }
                 else
                 {
                     delta = Math.abs(var1 - var2);
                     var1 = var2;
                 }
     
            }while(delta > epsilon);
        }
     
        public void setEpsilon(double epsilon)
        {
            if(epsilon > 0)
            {
                this.epsilon = epsilon;
            }
        }
     
        /**
         * @return the clusterCenters
         */
        public double[][] getClusterCenters() {
            return clusterCenters;
        }
    }
    Ma question est de savoir comment, à partir d'un fichier texte, je pourrais appliquer cet algorithme ?

    Merci d'avance pour votre aide.

  2. #2
    Membre éclairé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    351
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 351
    Par défaut
    Je connais pas du tout cette algo , a priori c'est pour faire des regroupements selon certaines caractéristiques.

    Je suppose que les données importantes sont les 4 premiers "float" de ton fichier texte qu'il faut passer à ce constructeur :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    public Kmeans(double[][] data, int numClusters)
     {
         this(data, numClusters, true);
     }
    Donc tu lis ton fichier ligne par ligne , tu fais un split sur la ',' , et tu ajoutes les 4 premiers nombres à chaque entrée du tableau à double dimension. Je "crois" que le tableau à double dimension dans l'algo est pas forcement nécessaire , seulement la deuxième dimension semble être utilisé.

    En gros il aurait pu utiliser ça : ArrayList<Double[]>(). En fait si la première dimension doit correspondre à "l'identifiant de ton objet"

    Une fois que tu as instancié ta classe Kmeans , tu appels la méthode "calculateClusters" , puis tu récupère le résultat avec getClusters() . Qui te retourne un tableau de ArrayList. Chaque ArrayList correspond à un cluster , le contenu de l'Arraylist correspond aux identifiants contenus dans le cluster.

    En espérant que cela t'aide ^^

  3. #3
    Candidat au Club
    Profil pro
    Inscrit en
    Novembre 2010
    Messages
    3
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3
    Par défaut Représentation de l'algorithme Kmeans dans un repère 2D
    Bonsoir,

    Afin de représenter chaque donnée de la base de données Iris dans un repère (X,Y) pour visualiser le principe de l'algo kmeans :
    Comment on attribue à chaque donnée une coordonnée (x,y) sachant que chaque donnée est composée par 4 attributs(longueur pétal, largeur pétal, longueur sépal, largeur sépal) tout on choisit pour chaque type de fleur une couleur!! est ce que ca est possible en java (eclipse) si oui, comment ! et ou je vais trouver des documents pour m'aider à implémenter l'astuce.

    Merci énormément pour votre aide

Discussions similaires

  1. Implémentation de l'algorithme k-means
    Par sahnounmk91 dans le forum Méthodes prédictives
    Réponses: 4
    Dernier message: 19/03/2014, 23h41
  2. Implémenter un service web RESTful en Java
    Par Arnaud_03 dans le forum REST
    Réponses: 4
    Dernier message: 21/04/2009, 18h06
  3. implémentation des protocoles tcp/ip en java
    Par mdlleréseau dans le forum Développement
    Réponses: 3
    Dernier message: 09/02/2008, 15h28
  4. Réponses: 10
    Dernier message: 12/09/2007, 10h15
  5. implémenter l'algorithme FCM
    Par fedia1 dans le forum Visual C++
    Réponses: 1
    Dernier message: 24/05/2007, 19h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo