Tutoriel pour découvrir Hadoop

**Community Management** · 20/08/2014, 23h31

Bonjour,

Je vous présente ce tutoriel traduit par Stéphane Dupont intitulé :

Hadoop est un système distribué, tolérant aux pannes, pour le stockage de données et qui est hautement scalable. Cette capacité de monter en charge est le résultat d'un stockage en cluster à haute bande passante et répliqué, connu sous l'acronyme de HDFS (Hadoop Distributed File System) et d'un traitement distribué spécifique et robuste connu sous le nom de MapReduce.

Bonne lecture !

Vous voulez contribuer en traduction ou en rédaction ? Cliquez sur ce lien

**étoile de mer** · 10/09/2014, 13h08

Bonjour,

Je suis une nouvelle sur Hadoop, et j'ai lu durant ces 3 derniers jours pas mal de tuto sur Hadoop. et j'ai l'impression que tout est melangé là dans ma tête.
La qestion qui m'intrigue là, c'est que Le Framework Hadoop est installé dans une seule machine du cluster ? à savoir le head node? ou bien dans une autre machine?

Merci de m"eclairer cette idée

**bordi** · 08/10/2015, 20h43

Hadoop peut s'installer sur une seule machine, comme les sandbox des grandes distribution pour apprendre, mais son objet principal et de supporter dans un mode cluster
des milliers de nodes/serveur ou les données seront distribués, pour permettre un traitement de parallelisme sur l'ensemble des noeuds pour ramener les données,
paradoxalement si le volume de données n'est pas assez important, les solutions classiques suffisent.

les disques sont partagées, les configurations sont synchronisées sur chacun des nodes par divers méthodes, nfs, sync à partir d'une même source ou sauvegarde.

on peut utiliser le scp d'une machine source pour copier vers les autre noeuds, j'utilise ca parce que j'ai un petit cluster.

avec des milliers de pc il faut automatiser les publication sur les noeuds avec rsync par exemple (remote synchronisation), qui va rafraichir les fichiers sur les noeuds, c est intégré dans les distributions.

exemple, rsync va rafraichir les fichiers hadoop (programme,config) sur hadoopslave1 et hadoopslave2 à partir du master ou d'une source ou sauvegarde

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Update the directory of master nodes of Hadoop cluster
## To edit file, fire the below given command
hduser@HadoopMaster:/usr/local/hadoop/etc/hadoop$ sudo gedit masters

## Add name of master nodes
HadoopMaster
Update slaves

Update the directory of slave nodes of Hadoop cluster
## To edit file, fire the below given command
hduser@HadoopMaster:/usr/local/hadoop/etc/hadoop$ sudo gedit slaves

## Add name of slave nodes
HadoopSlave1
HadoopSlave2
Copying/Sharing/Distributing Hadoop config files to rest all nodes – master/slaves

Use rsync for distributing configured Hadoop source among rest of nodes via network.
# In HadoopSlave1 machine
sudo rsync -avxP /usr/local/hadoop/ hduser@HadoopSlave1:/usr/local/hadoop/

# In HadoopSlave2 machine
sudo rsync -avxP /usr/local/hadoop/ hduser@HadoopSlave2:/usr/local/hadoop/
The above command will share the files stored within hadoop folder to Slave nodes with location – /usr/local/hadoop. So, you dont need to again download as well as setup the above configuration in rest of all nodes. You just need Java and rsync to be installed over all nodes. And this JAVA_HOME path need to be matched with $HADOOP_HOME/etc/hadoop/hadoop-env.sh file of your Hadoop distribution which we had already configured in Single node Hadoop configuration.

https://technique.arscenic.org/trans...ion-distant-de

Il ne faut pas s'attendre à apprendre hadoop et son ecosysteme en 3 jours, même avec une formation, c''est un travail d'apprentissage continu qui nécessite du temps et de la ténacité surtout quand on se heurte à des murs sur plusieurs semaines et qu'on dispose très peu d'information ou de d'échange, je suis loin d'avoir bouclé le sujet, meme si ca va mieux après quelques mois de galère, ou je ne comprenais rien, mais petit à petit, le puzzle s'assemble...

Tutoriel pour découvrir Hadoop

Hadoop & co

Discussions similaires

Partager

Partager