Données SNAP, structure graphe en big data

**nina2007** · 19/07/2016, 08h48

Bonjour,

Je fais de la recherche dans le domaine de fouille de données. Dans le but de suivre l’évolution de cette discipline et d'adapter mes travaux en conséquences, je voudrai
me mettre un peu en Big data.
Je compte me former toute seule. Les outils/langages que je compte utiliser: spark, python donc pyspark sachant que je programme déjà en python avec les bibliothèques de DataScience: pandas, sklearn, numpy etc
La première étape que je compte faire: c'est de tester un algorithme de machine learning sur des données SNAP de l'université stanford
lien: https://snap.stanford.edu/data/. Avez-vous une idée sur ces données ? est-ce que c'est possible de les manipuler avec spark?
je vois que ces données ont une structure d'un graphe. Je n'ai jamais manipulé ce genre de données. Avez-vous des liens ou des docs pour comprendre
comment les manipuler? La documentation fournie par SNAP ne m'a pas beaucoup aidé.

Sinon, que me conseillez-vous de comprendre (concepts/outils) en premier pour cette auto-formation

?
Merci

**rouardg** · 19/07/2016, 10h47

Bonjour,

Pour ma part, je ne connaissais absolument rien au Big Data, et je n'ai même pas de connaissances en langage de programmation comme Python ou Scala.

J'ai donc suivi un MOOC (une formation en ligne sur Internet ouverte à tous) d'une durée de 6 mois.

Pour les gens qui s'autoforment, je suis convaincu que c'est la meilleure solution, car on est guidé et on a une vision globale sur le Big Data.
En 6 mois, on a vu :
- Hadoop
- Pig
- Hive
- HBase
- Spark
- Neo4j
- la plateforme Splunk
- le Machine Learning avec ses algorithmes supervisé et non supervisé
- l'outil Knime pour les Data Scientist

C'est très riche et il faut être vraiment engagé et assidu sur 6 mois.
A l'issue de ce MOOC, ce qui me manque le plus, ce sont la connaissance des langages comme Python ou Scala, et surtout les Use Cases. En effet, une fois que l'on a vu tout cela, on se demande bien à quoi on va bien pouvoir l'appliquer.

Concernant tes données SNAP, si elles forment vraiment un graphe, alors pour moi il faut les traiter en tant que tel. Je ne suis pas expert, mais les 2 outils qui ressortent tout le temps pour faire de l'analyse de graphes sont soit la base Neo4j, soit le projet Apache Giraph qui permet de traiter les graphes en s'appuyant sur MR (Map / Reduce).

Côté langage R, il existe aussi le package igraph.

Sinon oui le Framework Spark sait manipuler ces objets. On utilise souvent pour cela son API Python (pySpark) car l'on bénéficie comme cela de toutes les bibliothèques de calcul existantes et que tu as citées (SciPy, NumPy, Pandas, SKlearn...) et je vois vois même qu'il existe une librairie SNAP pour Python.

Et puis tu peux aussi utiliser MLlib qui est la librairie de Machine Learning pour Spark.

En espérant que cela t'aide, et que d'autres personnes vont te faire bénéficier de leurs expériences.

**nina2007** · 20/07/2016, 08h06

Merci pour votre réponse.
ça va certainement m'aider
oui, les Mooc je connais bien mais c'est vrai que j'ai du mal à suivre à 100% le MOOC.
Merci encore.

**rouardg** · 20/07/2016, 09h48

Bonjour,

En complément d'information, j'ai découvert hier qu'il existe une API Spark pour traiter des graphes.

Cette API s'appelle GraphX : http://spark.apache.org/graphx/

**nina2007** · 20/07/2016, 09h55

Super

j'ai vu ça aussi mais comme je ne connais pas très bien spark...je n'ai pas pensé à ça

Merci, ça doit être ça ce que je cherche

Données SNAP, structure graphe en big data

Big Data

Discussions similaires

Partager

Partager