IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

Données SNAP, structure graphe en big data


Sujet :

Big Data

  1. #1
    Membre régulier

    Inscrit en
    Août 2007
    Messages
    308
    Détails du profil
    Informations forums :
    Inscription : Août 2007
    Messages : 308
    Points : 100
    Points
    100
    Billets dans le blog
    1
    Par défaut Données SNAP, structure graphe en big data
    Bonjour,

    Je fais de la recherche dans le domaine de fouille de données. Dans le but de suivre l’évolution de cette discipline et d'adapter mes travaux en conséquences, je voudrai
    me mettre un peu en Big data.
    Je compte me former toute seule. Les outils/langages que je compte utiliser: spark, python donc pyspark sachant que je programme déjà en python avec les bibliothèques de DataScience: pandas, sklearn, numpy etc
    La première étape que je compte faire: c'est de tester un algorithme de machine learning sur des données SNAP de l'université stanford
    lien: https://snap.stanford.edu/data/. Avez-vous une idée sur ces données ? est-ce que c'est possible de les manipuler avec spark?
    je vois que ces données ont une structure d'un graphe. Je n'ai jamais manipulé ce genre de données. Avez-vous des liens ou des docs pour comprendre
    comment les manipuler? La documentation fournie par SNAP ne m'a pas beaucoup aidé.

    Sinon, que me conseillez-vous de comprendre (concepts/outils) en premier pour cette auto-formation ?
    Merci

  2. #2
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Bonjour,

    Pour ma part, je ne connaissais absolument rien au Big Data, et je n'ai même pas de connaissances en langage de programmation comme Python ou Scala.

    J'ai donc suivi un MOOC (une formation en ligne sur Internet ouverte à tous) d'une durée de 6 mois.

    Pour les gens qui s'autoforment, je suis convaincu que c'est la meilleure solution, car on est guidé et on a une vision globale sur le Big Data.
    En 6 mois, on a vu :
    - Hadoop
    - Pig
    - Hive
    - HBase
    - Spark
    - Neo4j
    - la plateforme Splunk
    - le Machine Learning avec ses algorithmes supervisé et non supervisé
    - l'outil Knime pour les Data Scientist

    C'est très riche et il faut être vraiment engagé et assidu sur 6 mois.
    A l'issue de ce MOOC, ce qui me manque le plus, ce sont la connaissance des langages comme Python ou Scala, et surtout les Use Cases. En effet, une fois que l'on a vu tout cela, on se demande bien à quoi on va bien pouvoir l'appliquer.


    Concernant tes données SNAP, si elles forment vraiment un graphe, alors pour moi il faut les traiter en tant que tel. Je ne suis pas expert, mais les 2 outils qui ressortent tout le temps pour faire de l'analyse de graphes sont soit la base Neo4j, soit le projet Apache Giraph qui permet de traiter les graphes en s'appuyant sur MR (Map / Reduce).

    Côté langage R, il existe aussi le package igraph.

    Sinon oui le Framework Spark sait manipuler ces objets. On utilise souvent pour cela son API Python (pySpark) car l'on bénéficie comme cela de toutes les bibliothèques de calcul existantes et que tu as citées (SciPy, NumPy, Pandas, SKlearn...) et je vois vois même qu'il existe une librairie SNAP pour Python.

    Et puis tu peux aussi utiliser MLlib qui est la librairie de Machine Learning pour Spark.

    En espérant que cela t'aide, et que d'autres personnes vont te faire bénéficier de leurs expériences.

  3. #3
    Membre régulier

    Inscrit en
    Août 2007
    Messages
    308
    Détails du profil
    Informations forums :
    Inscription : Août 2007
    Messages : 308
    Points : 100
    Points
    100
    Billets dans le blog
    1
    Par défaut
    Merci pour votre réponse.
    ça va certainement m'aider
    oui, les Mooc je connais bien mais c'est vrai que j'ai du mal à suivre à 100% le MOOC.
    Merci encore.

  4. #4
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Bonjour,

    En complément d'information, j'ai découvert hier qu'il existe une API Spark pour traiter des graphes.

    Cette API s'appelle GraphX : http://spark.apache.org/graphx/

  5. #5
    Membre régulier

    Inscrit en
    Août 2007
    Messages
    308
    Détails du profil
    Informations forums :
    Inscription : Août 2007
    Messages : 308
    Points : 100
    Points
    100
    Billets dans le blog
    1
    Par défaut
    Super j'ai vu ça aussi mais comme je ne connais pas très bien spark...je n'ai pas pensé à ça

    Merci, ça doit être ça ce que je cherche

Discussions similaires

  1. Réponses: 0
    Dernier message: 07/05/2014, 11h12
  2. Réponses: 0
    Dernier message: 07/05/2014, 11h12
  3. Réponses: 3
    Dernier message: 13/01/2012, 19h45
  4. structuré les données ds un graph
    Par zizou85 dans le forum Conception
    Réponses: 0
    Dernier message: 10/03/2010, 10h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo