Discussion: Jointre et Big Data

  1. #1
    Membre du Club
    Homme Profil pro
    BI
    Inscrit en
    septembre 2015
    Messages
    39
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : BI
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : septembre 2015
    Messages : 39
    Points : 40
    Points
    40

    Par défaut Jointre et Big Data

    Bonjour,

    je viens vers vous pour avoir vos avis et surtout vos retours d’expériences.

    j'entends souvent dire que les jointures sont a proscrire dans le monde hadoop avec hive ou spark.

    Cependant, je suis sur un projet ou je dois reprendre une partie de mon DWH de Teradata vers hadoop. Donc, j'aurai certainement un nombre assez important de jointure à faire sur une volumétrie importante.

    Des conseils à me donner ?


    Merci d'avance.

  2. #2
    Membre confirmé

    Profil pro
    Inscrit en
    janvier 2007
    Messages
    559
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : janvier 2007
    Messages : 559
    Points : 604
    Points
    604

    Par défaut

    Bonjour,

    En effet, les jointures sont à éviter.

    Pour simplifier, si tu dis jointure, tu dis : "Aller chercher dans n serveurs tous les éléments qui ont pour clef A.CODE_ARTICLE = B.CODE_ARTICLE"
    Le problème, est que rien ne dit que les données auront un index sur ce code article – il est possible, parfois selon les solutions, d'un faire générer un –,
    et que si jamais il n'y a pas d'index, c'est une recherche séquentielle qui débuterait,
    et une recherche séquentielle en Big Data équivaut à mort par épuisement du programme.

    Et même si les index sont là, une jointure fera interroger :
    "Serveur 1, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 2, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 3, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 4, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"

    et moi, je les rassemble.

    On essaie d'éviter cela.
    Mais c'est vrai qu'après ça, avec Pig par exemple, finalement,
    on finit par donner des ordres qui provoquent cela, pour exploiter (=> requêter) ses données.

  3. #3
    Membre éprouvé

    Homme Profil pro
    Data Ingénieur & Scientist
    Inscrit en
    février 2009
    Messages
    431
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Data Ingénieur & Scientist
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : février 2009
    Messages : 431
    Points : 1 065
    Points
    1 065
    Billets dans le blog
    2

    Par défaut

    De mon coté je ferais attention a ce qu'on appelle BigData. Si avec Hadoop/Hive il peut être compliqué de faire des fusions, mais pas impossible; selon la volumétrie et le type de fichiers présent. Concernant Spark nous ne travaillons plus en MAP-REDUCE, mais avec la RAM ce qui change tout de même beaucoup de choses.

Discussions similaires

  1. Talend Open Studio for Big Data va passer sous licence Apache
    Par Gordon Fowler dans le forum Talend
    Réponses: 6
    Dernier message: 25/11/2013, 20h33
  2. Réponses: 3
    Dernier message: 13/01/2012, 19h45
  3. [Serveurs] [BIG DATA] sas/access to mongoDB
    Par wise2 dans le forum Administration et Installation
    Réponses: 1
    Dernier message: 06/12/2011, 16h05
  4. Réponses: 1
    Dernier message: 28/10/2011, 14h38
  5. Réponses: 0
    Dernier message: 17/10/2011, 17h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo