exemple de visualisation fait avec des kmeans dans le contexte de spark
http://cedric.cnam.fr/vertigo/Cours/...tomatique.html
Visualisation des résultats
Dans cette séance nous visualiserons les données à l’aide de gnuplot (installé dans une séance précédente). Vous pouvez vous servir d’autres outils (comme matplotlib ou ggplot2) si vous les maîtrisez déjà ; il vous faudra toutefois les installer.
Pour préparer la visualisation, il est nécessaire de concaténer les lignes du fichier de données et les lignes du fichier d’indices. Nous le ferons directement dans une fenêtre terminal (shell) :
[cloudera@quickstart ~]$ cd /home/cloudera/spark/data
[cloudera@quickstart data]$ paste --delimiters="," donnees/part-00000 indices/part-00000 > donneesGnuplot.txt
Nous utiliserons cette fois gnuplot à l’aide de commandes en ligne. Pour cela, ouvrez une nouvelle fenêtre terminal (shell), placez-vous dans le répertoire /home/cloudera/spark et lancez gnuplot :
[cloudera@quickstart ~]$ cd /home/cloudera/spark
[cloudera@quickstart spark]$ gnuplot
gnuplot>
Entrez les commandes suivantes dans la fenêtre gnuplot :
gnuplot> set datafile separator ','
gnuplot> set palette defined ( 0 "red", 1 "orange", 2 "brown", 3 "green", 4 "blue" )
gnuplot> splot "data/donneesGnuplot.txt" using 1:2:3:4 with points lc palette
Partager