Kmeans sur spark/scala

**joan_27** · 30/06/2015, 16h17

Bonjour,

Je ai une collection qui contient 100 fichiers texte et je veux faire classification thématique sur spark/scala.
J'applique kMeans clustering. Voici mon Approche:

- tokenisation
- La création d'une matrice de tf-idf sur mon corpus totale (100 fichiers)
- Appliquer Kmeans sur la matrice de tf-idf
- Le choix du nombre de grappes optimales en utilisant une validation croisée

À cette étape, je voudrais analyser mes clusters mais je ne sais pas comment je peux afficher chaque cluster avec ses mots caracteristing.
Est-ce que quelqu'un a une idée sur les codes que je dois exécuter pour ce faire celà ?

merci bien,

**bordi** · 01/07/2015, 13h06

Envoyé par joan_27

À cette étape, je voudrais analyser mes clusters mais je ne sais pas comment je peux afficher chaque cluster avec ses mots caracteristing.
Est-ce que quelqu'un a une idée sur les codes que je dois exécuter pour ce faire celà ?

en mode stand alone cluster (spark) ou un shared cluster (avec hadoop) ?

**joan_27** · 02/07/2015, 23h25

Stand alone spark

**bordi** · 03/07/2015, 09h03

Je suis pas trop dans mon coin, je commence à peine à regarder la machine learning( R,Mahout,Spark), selon ma vue et ma maigre connaissance de spark/scala, il faudrait passer des cluster kmean à une représentation graphique avec graphyx de spark. pour avoir une représentation plus parlante.

http://ampcamp.berkeley.edu/big-data...th-graphx.html

http://spark.apache.org/docs/latest/...ing-guide.html

un exemple scala/graphx à décortiquer, mais qui ne semble pas compatible avec ma version spark 1.4/scala 2.10/eclipse kepler, faut que je regarde pourquoi, je ne dois pas avoir la bonne version.

https://github.com/amplab/graphx/blo...eans.scala#L26

edit: voila les différence les tar associés 1.3/1.4
http://fossies.org/diffs/spark/1.3.1...cala-diff.html

le fichier
https://github.com/amplab/graphx/blo...means_data.txt

**bordi** · 03/07/2015, 10h59

il y aussi SparkKMeans.scala fourni avec les exemples spark qui fait une représentation texte d'un fichier

**bordi** · 11/07/2015, 10h15

bonjour,

Pour info, compte tenu de mon propre avancement dans le machine learning de spark et de R,
afin d'utiliser les représentations graphiques, il y a 4 grandes possibilités, après calcul des algo et traitement des graphes via graphx

1) il y a pyspark (python) combiner avec ipython pour représenter diverses formes de visualisation graphique

http://blog.caseystella.com/pyspark-...is-part-3.html

https://districtdatalabs.silvrback.c...park-in-python

2) Il y a apache zepelin qui est une application back end et qui integre une capacité à représenter les données sous forme graphique plus ou moins facilement, c'est un mécanisme de livre contenant des notes (qui sont des étapes de traitement), auquel on associe un interpréteur (on peut en ajouter), scala, sql, python,etc. quand on fait appel a des tables via %scala ou du %sql, quand il le peut, il propose des représentations graphiques. ce projet est encore en développement, mais il fonctionne.
c'est une brique de l'ecosysteme hadoop, il doit être en place sur un cluster, je n'ai rien vu pour une installation locale eclipse comme pour spark, mais j'ai pas creuser.

https://zeppelin.incubator.apache.org/

3) SparkR: Pour finir, c'est le plus intéressant pour moi, dans la dernière version de spark 1.4.0, ils ont développés sparkR, l'interaction des données entre spark et le langage R, on peut exécuter des script R dans spark et appeler un package spark pour appeler des fonctions spark dans R.

Cela permet beaucoup de perspectives, le couplage des deux langages démultiplie la force de spark et de R, dont fait parti les représentations graphique . Je travaille particulièrement dans cette partie en ce moment, un RDD peut être fourni à la partie R pour que R puisse en faire une représenttation graphique en sucre d'orge. y a encore pas mal de chose à explorer

4) si aucun des 3 précédent, il reste ce bon vieux excel ou utiliser un framework exploitant un fichier.

edit: j'ai oublié un 5eme, gnuplot est un outil graphique qui peut servir à la visualisation graphique pour spark notament, sous window ou sous linux (x11 package install requis), set terminal X11

http://www.gnuplot.info/download.html

exemple de visualisation fait avec des kmeans dans le contexte de spark

http://cedric.cnam.fr/vertigo/Cours/...tomatique.html

Visualisation des résultats

Dans cette séance nous visualiserons les données à l’aide de gnuplot (installé dans une séance précédente). Vous pouvez vous servir d’autres outils (comme matplotlib ou ggplot2) si vous les maîtrisez déjà ; il vous faudra toutefois les installer.

Pour préparer la visualisation, il est nécessaire de concaténer les lignes du fichier de données et les lignes du fichier d’indices. Nous le ferons directement dans une fenêtre terminal (shell) :

[cloudera@quickstart ~]$ cd /home/cloudera/spark/data
[cloudera@quickstart data]$ paste --delimiters="," donnees/part-00000 indices/part-00000 > donneesGnuplot.txt
Nous utiliserons cette fois gnuplot à l’aide de commandes en ligne. Pour cela, ouvrez une nouvelle fenêtre terminal (shell), placez-vous dans le répertoire /home/cloudera/spark et lancez gnuplot :

[cloudera@quickstart ~]$ cd /home/cloudera/spark
[cloudera@quickstart spark]$ gnuplot
gnuplot>
Entrez les commandes suivantes dans la fenêtre gnuplot :

gnuplot> set datafile separator ','
gnuplot> set palette defined ( 0 "red", 1 "orange", 2 "brown", 3 "green", 4 "blue" )
gnuplot> splot "data/donneesGnuplot.txt" using 1:2:3:4 with points lc palette

Kmeans sur spark/scala

Big Data

Discussions similaires

Partager

Partager