IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

Kmeans sur spark/scala


Sujet :

Big Data

  1. #1
    Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Juillet 2013
    Messages
    55
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2013
    Messages : 55
    Points : 65
    Points
    65
    Par défaut Kmeans sur spark/scala
    Bonjour,

    Je ai une collection qui contient 100 fichiers texte et je veux faire classification thématique sur spark/scala.
    J'applique kMeans clustering. Voici mon Approche:

    - tokenisation
    - La création d'une matrice de tf-idf sur mon corpus totale (100 fichiers)
    - Appliquer Kmeans sur la matrice de tf-idf
    - Le choix du nombre de grappes optimales en utilisant une validation croisée

    À cette étape, je voudrais analyser mes clusters mais je ne sais pas comment je peux afficher chaque cluster avec ses mots caracteristing.
    Est-ce que quelqu'un a une idée sur les codes que je dois exécuter pour ce faire celà ?

    merci bien,

  2. #2
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    Citation Envoyé par joan_27 Voir le message

    À cette étape, je voudrais analyser mes clusters mais je ne sais pas comment je peux afficher chaque cluster avec ses mots caracteristing.
    Est-ce que quelqu'un a une idée sur les codes que je dois exécuter pour ce faire celà ?
    en mode stand alone cluster (spark) ou un shared cluster (avec hadoop) ?

  3. #3
    Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Juillet 2013
    Messages
    55
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2013
    Messages : 55
    Points : 65
    Points
    65
    Par défaut
    Stand alone spark

  4. #4
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    Je suis pas trop dans mon coin, je commence à peine à regarder la machine learning( R,Mahout,Spark), selon ma vue et ma maigre connaissance de spark/scala, il faudrait passer des cluster kmean à une représentation graphique avec graphyx de spark. pour avoir une représentation plus parlante.

    http://ampcamp.berkeley.edu/big-data...th-graphx.html


    http://spark.apache.org/docs/latest/...ing-guide.html

    un exemple scala/graphx à décortiquer, mais qui ne semble pas compatible avec ma version spark 1.4/scala 2.10/eclipse kepler, faut que je regarde pourquoi, je ne dois pas avoir la bonne version.

    https://github.com/amplab/graphx/blo...eans.scala#L26

    edit: voila les différence les tar associés 1.3/1.4
    http://fossies.org/diffs/spark/1.3.1...cala-diff.html

    le fichier
    https://github.com/amplab/graphx/blo...means_data.txt

  5. #5
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    il y aussi SparkKMeans.scala fourni avec les exemples spark qui fait une représentation texte d'un fichier

  6. #6
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    bonjour,

    Pour info, compte tenu de mon propre avancement dans le machine learning de spark et de R,
    afin d'utiliser les représentations graphiques, il y a 4 grandes possibilités, après calcul des algo et traitement des graphes via graphx

    1) il y a pyspark (python) combiner avec ipython pour représenter diverses formes de visualisation graphique

    http://blog.caseystella.com/pyspark-...is-part-3.html

    https://districtdatalabs.silvrback.c...park-in-python

    2) Il y a apache zepelin qui est une application back end et qui integre une capacité à représenter les données sous forme graphique plus ou moins facilement, c'est un mécanisme de livre contenant des notes (qui sont des étapes de traitement), auquel on associe un interpréteur (on peut en ajouter), scala, sql, python,etc. quand on fait appel a des tables via %scala ou du %sql, quand il le peut, il propose des représentations graphiques. ce projet est encore en développement, mais il fonctionne.
    c'est une brique de l'ecosysteme hadoop, il doit être en place sur un cluster, je n'ai rien vu pour une installation locale eclipse comme pour spark, mais j'ai pas creuser.

    https://zeppelin.incubator.apache.org/



    3) SparkR: Pour finir, c'est le plus intéressant pour moi, dans la dernière version de spark 1.4.0, ils ont développés sparkR, l'interaction des données entre spark et le langage R, on peut exécuter des script R dans spark et appeler un package spark pour appeler des fonctions spark dans R.

    Cela permet beaucoup de perspectives, le couplage des deux langages démultiplie la force de spark et de R, dont fait parti les représentations graphique . Je travaille particulièrement dans cette partie en ce moment, un RDD peut être fourni à la partie R pour que R puisse en faire une représenttation graphique en sucre d'orge. y a encore pas mal de chose à explorer

    4) si aucun des 3 précédent, il reste ce bon vieux excel ou utiliser un framework exploitant un fichier.

    edit: j'ai oublié un 5eme, gnuplot est un outil graphique qui peut servir à la visualisation graphique pour spark notament, sous window ou sous linux (x11 package install requis), set terminal X11

    http://www.gnuplot.info/download.html

    exemple de visualisation fait avec des kmeans dans le contexte de spark

    http://cedric.cnam.fr/vertigo/Cours/...tomatique.html

    Visualisation des résultats

    Dans cette séance nous visualiserons les données à l’aide de gnuplot (installé dans une séance précédente). Vous pouvez vous servir d’autres outils (comme matplotlib ou ggplot2) si vous les maîtrisez déjà ; il vous faudra toutefois les installer.

    Pour préparer la visualisation, il est nécessaire de concaténer les lignes du fichier de données et les lignes du fichier d’indices. Nous le ferons directement dans une fenêtre terminal (shell) :

    [cloudera@quickstart ~]$ cd /home/cloudera/spark/data
    [cloudera@quickstart data]$ paste --delimiters="," donnees/part-00000 indices/part-00000 > donneesGnuplot.txt
    Nous utiliserons cette fois gnuplot à l’aide de commandes en ligne. Pour cela, ouvrez une nouvelle fenêtre terminal (shell), placez-vous dans le répertoire /home/cloudera/spark et lancez gnuplot :

    [cloudera@quickstart ~]$ cd /home/cloudera/spark
    [cloudera@quickstart spark]$ gnuplot
    gnuplot>
    Entrez les commandes suivantes dans la fenêtre gnuplot :

    gnuplot> set datafile separator ','
    gnuplot> set palette defined ( 0 "red", 1 "orange", 2 "brown", 3 "green", 4 "blue" )
    gnuplot> splot "data/donneesGnuplot.txt" using 1:2:3:4 with points lc palette

Discussions similaires

  1. [Flex4] Evénement sur spark list
    Par yvancoyaud dans le forum Flex
    Réponses: 3
    Dernier message: 28/02/2013, 14h21
  2. Réponses: 0
    Dernier message: 04/09/2009, 17h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo