Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

Comment organiser un datalake


Sujet :

Big Data

  1. #1
    Futur Membre du Club
    Comment organiser un datalake
    Bonjour à tous,
    j'expérimente les technos du Big Data et je constate qu'après avoir ingérer différentes sources de données, il va vite devenir difficile de retrouver mes petits.

    Du coup j'ai mis en place une arborescence du genre : Data_brutes\[SOURCE]\[Nom de la table]

    J'aimerai savoir s'il y a des choses à éviter et à faire pour s'y retrouver et organiser un datalake?

    Merci de vos retours.
    A+

  2. #2
    Modérateur

    Il y a des bonnes pratiques a suivre. Elles sont condensees dans The Data Lake Manifesto. Certaines pratiques sont discutables selon les projets, mais ca te donne deja une bonne idee de ce qu'il faut faire et ne pas faire.

    Le secret d'un Data Lake prospere est qu'il faut passer beaucoup de temps a planifier les differents aspects, et a les mettre en perspective avec les objectifs/scenarios de l'entreprise.

    Ca va beaucoup plus loin que la simple organisation de l'arborescence. Bien entendu l'arborescence est un element a ne pas negliger. Il faut la structurer de telle sorte que la navigation soit facile. En general l'arborescence fait partie du catalogue. Le catalogue associe l'arborescence + des meta donnees + de la documentation. Le but etant de permettre a quiconque de naviguer et trouver les donnees facilement.
    Less Is More
    Pensez à utiliser les boutons , et les balises code
    Desole pour l'absence d'accents, clavier US oblige
    Celui qui pense qu'un professionnel coute cher n'a aucune idee de ce que peut lui couter un incompetent.

###raw>template_hook.ano_emploi###