Bonjour
Je vois que des gens s'intéressent au bigdata ici
Je suis en train de monter un vrai cluster hadoop 2.6.0 avec yarn (apache hortonwork)
j'ai un master i7, 8GB , j'attends la mémoire pour monter à 16GB, et deux esclave datanode amd avec 16 GB ram,
Après avoir installé ubuntu 14.4 sur mes machines, j'ai d'abord régler tous les problèmes réseaux pour permettre la visibilité entre node.
la distribution fichier hdfs fonctionne bien entre node, rien à dire de ce côté, la.
la principale difficultée que je rencontre c'est de déterminer les ressources nécessaire à la configuration d'hadoop 2 pour yarn/mapred2, c'est
pas de la tarte.
j'ai trouvé un utilitaire sympa yarn-util.py en python qui aide à calculer la config.
La configuration du nodemanager/resoucemanager de hadoop 2 et de 8GB ram par défaut. j'ai aligné la configuration selon à mes ressources
en attendant que je sois à 16GB ram partout, je serais plus à l'aise pour ma conf.
normalement une config de 48GB ram par machine (40GB pour hadoop) permet de créer une vingtaine de container pour l'exécution des map reduce.
compte tenu de ma config, je me contenterai de 2-4 container pour le map reduce.
en terme d'intégration, c'est du boulot.
Pour une raison que j'ignore, j'arrive a lancer avec la gui hue, une tache pig sur le cluster qui se termine et à d'autres moment elle reste en attente infini ou voir
des hear beat (signe de problème de config des resources) malgré le restart de yarn. les erreusr ne sont pas très explicite en hadoop.
j'ai installé dans un premier temps,apache hadoop 2.6, pig 0.13.1, hive 0.13.1, oozie 4.0.1 (difficile à installer), hbase 0.98.7.hadoop2, zookeeper
je n'utilise pas ambari. j'y vais à la main.
Avec la gui hue je lance des taches pig qui s'executent via le workflow oozie et les résultats sont assez aléatoire, je n'arrive pas à comprendre pourquoi après démarrage
le même type de job fonctionne avec succes, reste souvent en attente infini, voir des message hear beat. alors que je n'utilise qu'un seul container pour ma tâche.
pour l'instant je rame un peu, donc je google et je cherche des idées, je pense que c'est ma config qui est très sensible en hadoop
qui est mal définie au niveau yarn-site.xml, mapred-site.xml
si vous avez des idées sur le sujet, je suis preneur, en attendant je repars à la bagarre, j'aime pas les trucs qui marchote et je finirai
bien par comprendre.
KR
JP
Partager