IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

Jointre et Big Data


Sujet :

Big Data

  1. #1
    Membre du Club
    Homme Profil pro
    BI
    Inscrit en
    Septembre 2015
    Messages
    41
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : BI
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Septembre 2015
    Messages : 41
    Points : 43
    Points
    43
    Par défaut Jointre et Big Data
    Bonjour,

    je viens vers vous pour avoir vos avis et surtout vos retours d’expériences.

    j'entends souvent dire que les jointures sont a proscrire dans le monde hadoop avec hive ou spark.

    Cependant, je suis sur un projet ou je dois reprendre une partie de mon DWH de Teradata vers hadoop. Donc, j'aurai certainement un nombre assez important de jointure à faire sur une volumétrie importante.

    Des conseils à me donner ?


    Merci d'avance.

  2. #2
    Membre éclairé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    605
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 605
    Points : 670
    Points
    670
    Par défaut
    Bonjour,

    En effet, les jointures sont à éviter.

    Pour simplifier, si tu dis jointure, tu dis : "Aller chercher dans n serveurs tous les éléments qui ont pour clef A.CODE_ARTICLE = B.CODE_ARTICLE"
    Le problème, est que rien ne dit que les données auront un index sur ce code article – il est possible, parfois selon les solutions, d'un faire générer un –,
    et que si jamais il n'y a pas d'index, c'est une recherche séquentielle qui débuterait,
    et une recherche séquentielle en Big Data équivaut à mort par épuisement du programme.

    Et même si les index sont là, une jointure fera interroger :
    "Serveur 1, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 2, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 3, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"
    "Serveur 4, donne-moi tous tes éléments avec CODE_ARTICLE = <ceci>"

    et moi, je les rassemble.

    On essaie d'éviter cela.
    Mais c'est vrai qu'après ça, avec Pig par exemple, finalement,
    on finit par donner des ordres qui provoquent cela, pour exploiter (=> requêter) ses données.

  3. #3
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    De mon coté je ferais attention a ce qu'on appelle BigData. Si avec Hadoop/Hive il peut être compliqué de faire des fusions, mais pas impossible; selon la volumétrie et le type de fichiers présent. Concernant Spark nous ne travaillons plus en MAP-REDUCE, mais avec la RAM ce qui change tout de même beaucoup de choses.

Discussions similaires

  1. Talend Open Studio for Big Data va passer sous licence Apache
    Par Gordon Fowler dans le forum Talend
    Réponses: 6
    Dernier message: 25/11/2013, 20h33
  2. Réponses: 3
    Dernier message: 13/01/2012, 19h45
  3. [Serveurs] [BIG DATA] sas/access to mongoDB
    Par wise2 dans le forum Administration et Installation
    Réponses: 1
    Dernier message: 06/12/2011, 16h05
  4. Réponses: 1
    Dernier message: 28/10/2011, 14h38
  5. Réponses: 0
    Dernier message: 17/10/2011, 17h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo