Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Discussion: Tp projet big data

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    octobre 2008
    Messages
    21
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : octobre 2008
    Messages : 21
    Points : 16
    Points
    16

    Par défaut Tp projet big data

    Bonjour tous le monde,

    auriez-vous des liens vers des TP avec correction sur des projets big data (hadoop, ELK, Spark ... )
    mon problème c'est que dans ma formation et dans les tutoriels en lignes c'est des mini-projet.

    Merci d'avance

  2. #2
    Nouveau membre du Club
    Profil pro
    Inscrit en
    février 2008
    Messages
    101
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : février 2008
    Messages : 101
    Points : 38
    Points
    38

    Par défaut

    Bonjour,

    Pour faire suite à ce post, je m'intéresse aussi au Big Data et à Spark en particulier.

    Existe-t-il des tps voir des projets à faire dans ce domaine pour progresser en Spark?

    Merci d'avance.

    Alex

  3. #3
    Nouveau membre du Club
    Profil pro
    Inscrit en
    février 2008
    Messages
    101
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : février 2008
    Messages : 101
    Points : 38
    Points
    38

    Par défaut

    Bonjour,

    A défaut de projet, j'essaye de me former avec des bouts de code pour spark que j'essaye d'implémenter. J'avoue avoir des difficultés sur certains morceaux de codes.

    Par exemple :

    code python/spark pour calculer des chiffres au carré :

    Code Python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    nums = sc.parallelize([1, 2, 3, 4])
    squared = nums.map(lambda x: x * x).collect()
    for num in squared:
     print "%i " % (num)


    code python/spark pour couper des lignes en mots :

    Code Python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    lines = sc.parallelize(["hello world", "hi"])
    words = lines.flatMap(lambda line: line.split(" "))
    words.first() # returns "hello"

    code python/spark pour des agrégations :

    Code Python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    sumCount = nums.aggregate((0, 0),
     (lambda x, y: (x[0] + y, x[1] + 1),
     (lambda x, y: (x[0] + y[0], x[1] + y[1]))))
    return sumCount[0] / float(sumCount[1])


    Même si j'ai compris l'idée de ces codes, je n'ai pas tout compris dans le détail.
    Pouvez vous m'aider svp?

    Merci d'avance.

    Alex

  4. #4
    Expert Oracle confirmé

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2003
    Messages
    410
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Conseil

    Informations forums :
    Inscription : mars 2003
    Messages : 410
    Points : 849
    Points
    849

    Par défaut

    Bonjour,

    A mon avis, vouloir se former avec des bouts de code, c'est bien. Mais pour bien comprendre, maux vaut suivre une formation si on le peut, ou bien s'acheter au moins un livre sur Spark.

    Avec un livre, tu pourras acquérir les concepts et les fondamentaux de base et notamment :
    - comment charger des données dans un Dataset Spark, avec les notions de RDD (Resilient Distributed Dataset) et de Dataframe
    - comment traiter ces données via l'API Spark, en appelant des fonctions comme map ou flatMap
    - ce qu'est une transformation et ce qu'est une action, avec la notion de DAG (Directed Acyclic Graph)
    - comment fonctionne Spark et quelles sont les différences entre une transformation étroite et une transformation large

    Ça, c'est la base. Après tu trouveras les sujets classiques comme faire du Streaming, du SQL et du Machine Learning avec Spark.




    Avec un livre, tu aurais compris que :

    - parallelize est une des 2 méthodes bien connues pour charger une collection de données dans Spark, et en faire un RDD pour distribuer les données sur les différents noeuds du cluster. Le livre t'aurait dit que l'autre méthode pour charger des données est textFile pour lire un fichier texte et le charger dans un RDD

    - que map et flatMap sont des transformations, la différence étant que map ne retourne qu'un élément en sortie pour un élément en entrée, alors que flatMap retourne N éléments en sortie pour 1 élément en entrée.
    En clair,sur le calcul du carré, on appelle map car pour l'entrée 2, on récupère 4 en sortie, alors que dans le second exemple, on appelle flatMap car pour la chaîne "hello world" en entrée, on récupère par la fonction Split 2 éléments en sortie qui sont "hello" et "world"

    - que collect() permet non seulement de collecter le résultat mais surtout que collect est une action.
    En fait, tant que tu envoies à Spark des commandes de type transformation, il ne se passe rien. Elles ne sont pas exécutées sur le moment, mais elles (les transformations) seront évaluées et exécutées en même temps lorsque Spark recevra une action, telle que collect ou first

    On appelle cela la Lazy Evaluation (l'évaluation paresseuse) car cela permet à Spark d'évaluer toutes les transformations d'un seul coup, et d'essayer de les optimiser.

    Voilà, avec un livre, tu aurais à mon avis compris tout cela.

  5. #5
    Nouveau membre du Club
    Homme Profil pro
    informatique
    Inscrit en
    janvier 2013
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Maroc

    Informations professionnelles :
    Activité : informatique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : janvier 2013
    Messages : 17
    Points : 33
    Points
    33

    Par défaut Hadoop / Big Data : cours et TPs avec correction

    Vous pouvez voir ce lien je crois que c'est intéressant.

    http://cours.tokidev.fr/bigdata/

Discussions similaires

  1. Projet Big data
    Par vilour dans le forum Big Data
    Réponses: 3
    Dernier message: 16/06/2017, 10h14
  2. Réponses: 0
    Dernier message: 24/02/2015, 12h38
  3. [Serveurs] [BIG DATA] sas/access to mongoDB
    Par wise2 dans le forum Administration et Installation
    Réponses: 1
    Dernier message: 06/12/2011, 16h05
  4. Réponses: 1
    Dernier message: 28/10/2011, 14h38
  5. Réponses: 0
    Dernier message: 17/10/2011, 17h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo