IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Tutoriel pour découvrir Hadoop


Sujet :

Hadoop & co

  1. #1
    Community Manager

    Profil pro
    Inscrit en
    Avril 2014
    Messages
    4 207
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2014
    Messages : 4 207
    Points : 13 064
    Points
    13 064
    Par défaut Tutoriel pour découvrir Hadoop
    Bonjour,

    Je vous présente ce tutoriel traduit par Stéphane Dupont intitulé :

    Hadoop est un système distribué, tolérant aux pannes, pour le stockage de données et qui est hautement scalable. Cette capacité de monter en charge est le résultat d'un stockage en cluster à haute bande passante et répliqué, connu sous l'acronyme de HDFS (Hadoop Distributed File System) et d'un traitement distribué spécifique et robuste connu sous le nom de MapReduce.


    Bonne lecture !



  2. #2
    Débutant Avatar de étoile de mer
    Profil pro
    Étudiant
    Inscrit en
    Avril 2007
    Messages
    978
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2007
    Messages : 978
    Points : 117
    Points
    117
    Par défaut
    Bonjour,

    Je suis une nouvelle sur Hadoop, et j'ai lu durant ces 3 derniers jours pas mal de tuto sur Hadoop. et j'ai l'impression que tout est melangé là dans ma tête.
    La qestion qui m'intrigue là, c'est que Le Framework Hadoop est installé dans une seule machine du cluster ? à savoir le head node? ou bien dans une autre machine?

    Merci de m"eclairer cette idée

  3. #3
    Membre habitué
    Homme Profil pro
    Inscrit en
    Octobre 2007
    Messages
    190
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 190
    Points : 182
    Points
    182
    Par défaut
    Hadoop peut s'installer sur une seule machine, comme les sandbox des grandes distribution pour apprendre, mais son objet principal et de supporter dans un mode cluster
    des milliers de nodes/serveur ou les données seront distribués, pour permettre un traitement de parallelisme sur l'ensemble des noeuds pour ramener les données,
    paradoxalement si le volume de données n'est pas assez important, les solutions classiques suffisent.

    les disques sont partagées, les configurations sont synchronisées sur chacun des nodes par divers méthodes, nfs, sync à partir d'une même source ou sauvegarde.

    on peut utiliser le scp d'une machine source pour copier vers les autre noeuds, j'utilise ca parce que j'ai un petit cluster.

    avec des milliers de pc il faut automatiser les publication sur les noeuds avec rsync par exemple (remote synchronisation), qui va rafraichir les fichiers sur les noeuds, c est intégré dans les distributions.

    exemple, rsync va rafraichir les fichiers hadoop (programme,config) sur hadoopslave1 et hadoopslave2 à partir du master ou d'une source ou sauvegarde

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    Update the directory of master nodes of Hadoop cluster
    ## To edit file, fire the below given command
    hduser@HadoopMaster:/usr/local/hadoop/etc/hadoop$ sudo gedit masters
    
    ## Add name of master nodes
    HadoopMaster
    Update slaves
    
    Update the directory of slave nodes of Hadoop cluster
    ## To edit file, fire the below given command
    hduser@HadoopMaster:/usr/local/hadoop/etc/hadoop$ sudo gedit slaves
    
    ## Add name of slave nodes
    HadoopSlave1
    HadoopSlave2
    Copying/Sharing/Distributing Hadoop config files to rest all nodes – master/slaves
    
    Use rsync for distributing configured Hadoop source among rest of nodes via network.
    # In HadoopSlave1 machine
    sudo rsync -avxP /usr/local/hadoop/ hduser@HadoopSlave1:/usr/local/hadoop/
    
    # In HadoopSlave2 machine
    sudo rsync -avxP /usr/local/hadoop/ hduser@HadoopSlave2:/usr/local/hadoop/
    The above command will share the files stored within hadoop folder to Slave nodes with location – /usr/local/hadoop. So, you dont need to again download as well as setup the above configuration in rest of all nodes. You just need Java and rsync to be installed over all nodes. And this JAVA_HOME path need to be matched with $HADOOP_HOME/etc/hadoop/hadoop-env.sh file of your Hadoop distribution which we had already configured in Single node Hadoop configuration.
    https://technique.arscenic.org/trans...ion-distant-de

    Il ne faut pas s'attendre à apprendre hadoop et son ecosysteme en 3 jours, même avec une formation, c''est un travail d'apprentissage continu qui nécessite du temps et de la ténacité surtout quand on se heurte à des murs sur plusieurs semaines et qu'on dispose très peu d'information ou de d'échange, je suis loin d'avoir bouclé le sujet, meme si ca va mieux après quelques mois de galère, ou je ne comprenais rien, mais petit à petit, le puzzle s'assemble...

Discussions similaires

  1. Réponses: 10
    Dernier message: 30/09/2014, 16h51
  2. Tutoriel pour découvrir Hadoop
    Par Lana.Bauer dans le forum NoSQL
    Réponses: 0
    Dernier message: 20/08/2014, 23h31
  3. Tutoriels pour Apache
    Par Marc Lussac dans le forum Apache
    Réponses: 8
    Dernier message: 11/11/2009, 20h10
  4. Outils, cours et NOUVEAUX tutoriels pour Borland C++Builder
    Par hiko-seijuro dans le forum C++Builder
    Réponses: 10
    Dernier message: 12/03/2006, 22h33
  5. Réponses: 1
    Dernier message: 13/05/2002, 09h19

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo