Installation et configuration hadoop 2 & ecosysteme

**bordi** · 06/04/2015, 16h06

Bonjour

Je vois que des gens s'intéressent au bigdata ici

Je suis en train de monter un vrai cluster hadoop 2.6.0 avec yarn (apache hortonwork)

j'ai un master i7, 8GB , j'attends la mémoire pour monter à 16GB, et deux esclave datanode amd avec 16 GB ram,

Après avoir installé ubuntu 14.4 sur mes machines, j'ai d'abord régler tous les problèmes réseaux pour permettre la visibilité entre node.

la distribution fichier hdfs fonctionne bien entre node, rien à dire de ce côté, la.

la principale difficultée que je rencontre c'est de déterminer les ressources nécessaire à la configuration d'hadoop 2 pour yarn/mapred2, c'est
pas de la tarte.

j'ai trouvé un utilitaire sympa yarn-util.py en python qui aide à calculer la config.

La configuration du nodemanager/resoucemanager de hadoop 2 et de 8GB ram par défaut. j'ai aligné la configuration selon à mes ressources
en attendant que je sois à 16GB ram partout, je serais plus à l'aise pour ma conf.

normalement une config de 48GB ram par machine (40GB pour hadoop) permet de créer une vingtaine de container pour l'exécution des map reduce.

compte tenu de ma config, je me contenterai de 2-4 container pour le map reduce.

en terme d'intégration, c'est du boulot.

Pour une raison que j'ignore, j'arrive a lancer avec la gui hue, une tache pig sur le cluster qui se termine et à d'autres moment elle reste en attente infini ou voir
des hear beat (signe de problème de config des resources) malgré le restart de yarn. les erreusr ne sont pas très explicite en hadoop.

j'ai installé dans un premier temps,apache hadoop 2.6, pig 0.13.1, hive 0.13.1, oozie 4.0.1 (difficile à installer), hbase 0.98.7.hadoop2, zookeeper

je n'utilise pas ambari. j'y vais à la main.

Avec la gui hue je lance des taches pig qui s'executent via le workflow oozie et les résultats sont assez aléatoire, je n'arrive pas à comprendre pourquoi après démarrage
le même type de job fonctionne avec succes, reste souvent en attente infini, voir des message hear beat. alors que je n'utilise qu'un seul container pour ma tâche.

pour l'instant je rame un peu, donc je google et je cherche des idées, je pense que c'est ma config qui est très sensible en hadoop
qui est mal définie au niveau yarn-site.xml, mapred-site.xml

si vous avez des idées sur le sujet, je suis preneur, en attendant je repars à la bagarre, j'aime pas les trucs qui marchote et je finirai
bien par comprendre.

KR
JP

**bordi** · 08/04/2015, 09h27

ce qui est surprenant, j'ai réglé mon hadoop pour gérer au moins 6 container map reduce avec l'aide de l'outil yarn-util
qui m'a permis de setter le yarn-site.xml et el mapred-site.xml selon ma config.

Néanmoins, mes taches pig bloque toujours lors de l'exécution 9 fois sur 10, normalement quand cela s'exécute correctement,
j'ouvre 2 tâches oozie/pig.

Mais la plupart j'en ai 1 ou voir 3/4 selon le lancement, a 1 ca reste en attente,
avec 3 ou 4 instance, je commence à avoir des logs, jusqu'au blocage pour l'attente de la disponibilité d'un container.
j'ai visiblement un problème de planification de la distribution 'instance par le ressource manager aux nodes manager.

je continu, je vais analyser mes logs en détail, et ensuite je verrai une config générée avec l'aide d'ambari.
je ferais mon retour d'expérience, il est difficile de trouver des forum ou il y a de l'hadoop, comme le disait quelqu'un
hadoop est un monde de souffrance permanente, je relève le gant.

Using cores=4 memory=8GB disks=3 hbase=False
Profile: cores=4 memory=6144MB reserved=2GB usableMem=6GB disks=3
Num Container=6
Container Ram=1024MB
Used Ram=6GB
Unused Ram=2GB
yarn.scheduler.minimum-allocation-mb=1024
yarn.scheduler.maximum-allocation-mb=6144
yarn.nodemanager.resource.memory-mb=6144
mapreduce.map.memory.mb=1024
mapreduce.map.java.opts=-Xmx819m
mapreduce.reduce.memory.mb=2048
mapreduce.reduce.java.opts=-Xmx1638m
yarn.app.mapreduce.am.resource.mb=2048
yarn.app.mapreduce.am.command-opts=-Xmx1638m
mapreduce.task.io.sort.mb=409

**bordi** · 09/04/2015, 13h26

bon, j'avance, malgré mes questions sur plusieurs forum hadoop, y en a pas beaucoup qui puissent répondre.
tant pis, je donne un feedback de ma progression pour la mémoire.

j'avance, pas aussi vite que je le voudrais, mais je progresse pas mal dans la prise de connaissance.

voici ma logs d'une tache pig exécuté au niveau cluster hadoop et l'utilisation du map reduce et du yarn
il compte le nombre de mot contenu dans un fichier, vu la complexité et l'instabilité de mon cluster je fais simple.

il stocke le résultat du comptage mot par mot dans un fichier output

hadoop+pig+oozie+hue.

Sucessful job pig work on my cluster,

Apache Pig version 0.10.1 (r1426282)
compiled Dec 27 2012, 11:23:06

Run pig script using PigRunner.run() for Pig version 0.8+
2015-04-08 10:06:09,906 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.1 (r1426282) compiled Dec 27 2012, 11:23:06
2015-04-08 10:06:09,906 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.1 (r1426282) compiled Dec 27 2012, 11:23:06
2015-04-08 10:06:09,909 [main] INFO org.apache.pig.Main - Logging error messages to: /tmp/hadoop-hduser-hue/nm-local-dir/usercache/hduser/appcache/application_1428479880621_0002/container_1428479880621_0002_01_000002/pig-job_1428479880621_0002.log
2015-04-08 10:06:09,909 [main] INFO org.apache.pig.Main - Logging error messages to: /tmp/hadoop-hduser-hue/nm-local-dir/usercache/hduser/appcache/application_1428479880621_0002/container_1428479880621_0002_01_000002/pig-job_1428479880621_0002.log
2015-04-08 10:06:09,943 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - user.name is deprecated. Instead, use mapreduce.job.user.name
2015-04-08 10:06:10,372 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://stargate:9000
2015-04-08 10:06:10,372 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://stargate:9000
2015-04-08 10:06:10,380 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2015-04-08 10:06:12,418 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: GROUP_BY,ORDER_BY,FILTER
2015-04-08 10:06:12,418 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: GROUP_BY,ORDER_BY,FILTER
2015-04-08 10:06:12,641 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.textoutputformat.separator is deprecated. Instead, use mapreduce.output.textoutputformat.separator
2015-04-08 10:06:12,971 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - File concatenation threshold: 100 optimistic? false
2015-04-08 10:06:12,971 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - File concatenation threshold: 100 optimistic? false
2015-04-08 10:06:13,072 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.CombinerOptimizer - Choosing to move algebraic foreach to combiner
2015-04-08 10:06:13,072 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.CombinerOptimizer - Choosing to move algebraic foreach to combiner
2015-04-08 10:06:13,153 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size before optimization: 3
2015-04-08 10:06:13,153 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size before optimization: 3
2015-04-08 10:06:13,154 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size after optimization: 3
2015-04-08 10:06:13,154 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size after optimization: 3
2015-04-08 10:06:13,358 [main] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-04-08 10:06:13,991 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:06:13,991 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:06:14,012 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.reduce.markreset.buffer.percent is deprecated. Instead, use mapreduce.reduce.markreset.buffer.percent
2015-04-08 10:06:14,012 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:06:14,012 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:06:14,013 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.output.compress is deprecated. Instead, use mapreduce.output.fileoutputformat.compress
2015-04-08 10:06:14,021 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job3082232122459886865.jar
2015-04-08 10:06:14,021 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job3082232122459886865.jar
2015-04-08 10:06:17,861 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job3082232122459886865.jar created
2015-04-08 10:06:17,861 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job3082232122459886865.jar created
2015-04-08 10:06:17,862 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.jar is deprecated. Instead, use mapreduce.job.jar
2015-04-08 10:06:17,940 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:06:17,940 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - BytesPerReducer=1000000000 maxReducers=999 totalInputFileSize=2502
2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - BytesPerReducer=1000000000 maxReducers=999 totalInputFileSize=2502
2015-04-08 10:06:18,030 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.reduce.tasks is deprecated. Instead, use mapreduce.job.reduces
2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Neither PARALLEL nor default parallelism is set for this job. Setting number of reducers to 1
2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Neither PARALLEL nor default parallelism is set for this job. Setting number of reducers to 1
2015-04-08 10:06:18,178 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:06:18,178 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:06:18,179 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker.http.address is deprecated. Instead, use mapreduce.jobtracker.http.address
2015-04-08 10:06:18,179 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
2015-04-08 10:06:18,190 [Thread-15] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-04-08 10:06:18,328 [Thread-15] INFO org.apache.hadoop.conf.Configuration.deprecation - yarn.client.max-nodemanagers-proxies is deprecated. Instead, use yarn.client.max-cached-nodemanagers-proxies
2015-04-08 10:06:18,329 [Thread-15] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2015-04-08 10:06:19,088 [Thread-15] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
2015-04-08 10:06:19,089 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:06:19,089 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:06:19,114 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:06:19,114 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:06:19,861 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
2015-04-08 10:06:20,044 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0003
2015-04-08 10:06:20,045 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@265e1006)
2015-04-08 10:06:20,046 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
2015-04-08 10:06:20,922 [Thread-15] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0003
2015-04-08 10:06:21,055 [Thread-15] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0003/
2015-04-08 10:06:21,055 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0003
2015-04-08 10:06:21,055 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0003
2015-04-08 10:06:21,056 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0003
2015-04-08 10:06:21,056 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0003
2015-04-08 10:06:21,165 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete
2015-04-08 10:06:21,165 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete
2015-04-08 10:06:30,693 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 16% complete
2015-04-08 10:06:30,693 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 16% complete
Heart beat
2015-04-08 10:06:44,406 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 33% complete
2015-04-08 10:06:44,406 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 33% complete
2015-04-08 10:06:46,537 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:06:46,537 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:06:46,540 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:06:46,540 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:06:46,542 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job2683633827201366673.jar
2015-04-08 10:06:46,542 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job2683633827201366673.jar
2015-04-08 10:06:49,642 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job2683633827201366673.jar created
2015-04-08 10:06:49,642 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job2683633827201366673.jar created
2015-04-08 10:06:49,669 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:06:49,669 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:06:49,732 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:06:49,732 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:06:49,733 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
2015-04-08 10:06:49,738 [Thread-29] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-04-08 10:06:49,779 [Thread-29] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:06:50,267 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:06:50,267 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:06:50,413 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
2015-04-08 10:06:50,545 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0004
2015-04-08 10:06:50,545 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@77a793df)
2015-04-08 10:06:50,546 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
2015-04-08 10:06:50,846 [Thread-29] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0004
2015-04-08 10:06:50,856 [Thread-29] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0004/
2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0004
2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0004
2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0004
2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0004
2015-04-08 10:07:00,615 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% complete
2015-04-08 10:07:00,615 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% complete
2015-04-08 10:07:06,849 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 66% complete
2015-04-08 10:07:06,849 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 66% complete
Heart beat
2015-04-08 10:07:11,533 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:07:11,533 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
2015-04-08 10:07:11,535 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:07:11,535 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
2015-04-08 10:07:11,537 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job6609113403299452445.jar
2015-04-08 10:07:11,537 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job6609113403299452445.jar
2015-04-08 10:07:14,599 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job6609113403299452445.jar created
2015-04-08 10:07:14,599 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job6609113403299452445.jar created
2015-04-08 10:07:14,608 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:07:14,608 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
2015-04-08 10:07:14,658 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:07:14,658 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
2015-04-08 10:07:14,658 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
2015-04-08 10:07:14,662 [Thread-44] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-04-08 10:07:14,697 [Thread-44] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
2015-04-08 10:07:15,113 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:07:15,113 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
2015-04-08 10:07:15,253 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0005
2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@4448ca69)
2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
2015-04-08 10:07:15,608 [Thread-44] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0005
2015-04-08 10:07:15,616 [Thread-44] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0005/
2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0005
2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0005
2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0005
2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0005
2015-04-08 10:07:25,239 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 83% complete
2015-04-08 10:07:25,239 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 83% complete
Heart beat
2015-04-08 10:07:46,040 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% complete
2015-04-08 10:07:46,040 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% complete
2015-04-08 10:07:46,051 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:

HadoopVersion PigVersion UserId StartedAt FinishedAt Features
2.6.0 0.10.1 hduser 2015-04-08 10:06:13 2015-04-08 10:07:46 GROUP_BY,ORDER_BY,FILTER

Success!

Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MaxReduceTime MinReduceTime AvgReduceTime Alias Feature Outputs
job_1428479880621_0003 1 1 3 3 3 10 10 10 filtered_words,input_lines,word_count,word_groups,words GROUP_BY,COMBINER
job_1428479880621_0004 1 1 2 2 2 3 3 3 ordered_word_count SAMPLER
job_1428479880621_0005 1 1 3 3 3 14 14 14 ordered_word_count ORDER_BY /usr/hadoop/numberwords,

Input(s):
Successfully read 10 records (2907 bytes) from: "/usr/hadoop/compare_journal_216781270000000_20141014_154039.output"

Output(s):
Successfully stored 11 records (102 bytes) in: "/usr/hadoop/numberwords"

Counters:
Total records written : 11
Total bytes written : 102
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

Job DAG:
job_1428479880621_0003 -> job_1428479880621_0004,
job_1428479880621_0004 -> job_1428479880621_0005,
job_1428479880621_0005

2015-04-08 10:07:46,051 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:

HadoopVersion PigVersion UserId StartedAt FinishedAt Features
2.6.0 0.10.1 hduser 2015-04-08 10:06:13 2015-04-08 10:07:46 GROUP_BY,ORDER_BY,FILTER

Success!

Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MaxReduceTime MinReduceTime AvgReduceTime Alias Feature Outputs
job_1428479880621_0003 1 1 3 3 3 10 10 10 filtered_words,input_lines,word_count,word_groups,words GROUP_BY,COMBINER
job_1428479880621_0004 1 1 2 2 2 3 3 3 ordered_word_count SAMPLER
job_1428479880621_0005 1 1 3 3 3 14 14 14 ordered_word_count ORDER_BY /usr/hadoop/numberwords,

Input(s):
Successfully read 10 records (2907 bytes) from: "/usr/hadoop/compare_journal_216781270000000_20141014_154039.output"

Output(s):
Successfully stored 11 records (102 bytes) in: "/usr/hadoop/numberwords"

Counters:
Total records written : 11
Total bytes written : 102
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

Job DAG:
job_1428479880621_0003 -> job_1428479880621_0004,
job_1428479880621_0004 -> job_1428479880621_0005,
job_1428479880621_0005

2015-04-08 10:07:47,057 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:48,059 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:49,060 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:49,179 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
2015-04-08 10:07:52,427 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:53,428 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:54,429 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
2015-04-08 10:07:54,535 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
2015-04-08 10:07:55,254 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server

**bordi** · 09/04/2015, 13h35

J'ai pu enfin comprendre un de mes problèmes, le fait que ma tache application plante sur un node esclave et pas sur le node du master.
chaque fois que le (RM) resourcemanager envoi aux nodes manager (NM) datanode esclave.

Le NM déclenche le lancement d'une jvm pour déployer le conteneur qui contient les scripts, les jars pour l'execution du progamme, les config liés à la tâche,
elle doit avoir assez de mémoire pour s'exécuter.

Ce conteneur sera automatiquement détruit après exécution. mais on peut y accéder pour voir les logs local et identifier le problème.

le problème que je rencontre sur le node esclave du cluster ou se déploie le conteneur, la résolution de l'adresse du scheduler RM ne se fait pas correctement au sein
du conteneur, et il tente de s'y connecter en 0.0.0.0:8030 au lieu de l'adresse monipmaster:8030, résultat il ne peut pas s'y connecter, la tâche se bloque
dessus en retrying et seul un long timeout peut éventuellement se déclencher pour terminer la tache. alors que sur master je ne recontre pas ce problème.

je cherche à identifier d'ou cela vient, visiblement il ne tient pas compte du resourcemananger.hostname défini dans le fichier yarn-site.xml qui est le meme sur tous mes serveurs
ça c'est gênant pour la stabilité d'exécution.

y a énormément de boulot avant de faire le tour, et j'ai pas commencé la prise de connaissance de l'écosystème (hbase,hive,mahoot)

il n'arrive pas résoudre l'adresse du scheduller, alors qu'il le fait pour toutes les autres qui sont définies, ça sent le bug quelque part.

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>stargate</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>

but in container lauch (slave node) it fail on retrying connection and wait until it get, that mean never and it take long time for timeout

2015-04-08 12:23:19,333 INFO [IPC Server Responder] org.apache.hadoop.ipc.Server: IPC Server Responder: starting
2015-04-08 12:23:19,333 INFO [IPC Server listener on 34611] org.apache.hadoop.ipc.Server: IPC Server listener on 34611: starting
2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: nodeBlacklistingEnabled:true
2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: maxTaskFailuresPerNode is 3
2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: blacklistDisablePercent is 33
2015-04-08 12:23:19,542 INFO [main] org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8030
2015-04-08 12:23:20,692 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8030. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

**bordi** · 11/04/2015, 18h50

Le mot de la fin, mon cluster travaille parfaitement sur le master comme sur les esclave

Comme je suspectais oozie 4.0.1, pour résoudre mon problème, j'ai du installer la version oozie 4.1.0 mais pour cela il faut recompiler le project avec la version hadoop correspondant

Oozie ne connait que la version hadoop 2.3.0 alors que je suis en 2.6.0, oozie compile par défaut avec la version hadoop 1.1.1 et ca provoque des erreurs
d'execution dans hadoop 2 avec des nosuchfieldexception sur jobcontrol

j'ai changé dans le pom du projet
la version hadoop utilisé 1.1.1 => 2.3.0

pour des raisons inconnues, j'ai du installé maven 3.2.1 au lieu d'utiliser maven 2.2.1 sinon il fail en oozie-hadoop duplicate in reactor

après j'ai installé redemarre, et je n'ai plus de problème, je peux lancer 10 fois mes taches sur mon cluster, je vois les map reduce s'executer
sur les nodes.

j'ai augmenté la mémoire de mon serveur master de 8GB à 24 GB ram, ce qui fait que je peux augmenter la taille de mes conteneurs

hduser@stargate:~$ python /home/hduser/yarn-util.py -c 4 -m 12 -d 3 -k False
Using cores=4 memory=12GB disks=3 hbase=False
Profile: cores=4 memory=11264MB reserved=1GB usableMem=11GB disks=3
Num Container=6
Container Ram=1536MB
Used Ram=9GB
Unused Ram=1GB
yarn.scheduler.minimum-allocation-mb=1536
yarn.scheduler.maximum-allocation-mb=9216
yarn.nodemanager.resource.memory-mb=9216
mapreduce.map.memory.mb=1536
mapreduce.map.java.opts=-Xmx1228m
mapreduce.reduce.memory.mb=3072
mapreduce.reduce.java.opts=-Xmx2457m
yarn.app.mapreduce.am.resource.mb=3072
yarn.app.mapreduce.am.command-opts=-Xmx2457m
mapreduce.task.io.sort.mb=614

Je suis content, maintenant je peux commencer à jouer avec l'ecosystem hadoop (hive,hbase,pig,mahoot,etc...)

Je reviendrai pour de nouvelles aventures avec mon bigdata perso.

A+

**bordi** · 12/04/2015, 14h22

bon comme j'ai un beau cluster qui marche, je passe à l'ecosysteme hadoop

pig ca marche
map reduce ca marche

J'ai installé hbase, aucun problème de rencontrer, j'accede au serveur, je peux creer des table, faire des query, je reviendrais dessus pour jouer plus tard, c'est en place

J'ai installé hive, paf mauvaise version, ca plante, hadoop 2.6.0 a besoin de hive 0.14, c'est installé et ca marche

Je suis parti à l'assaut de la deuxième partie de hive, le module hcatalog (metastore) qui ressemble à un data memory grid. faut que je regarde de plus près ce que ca fait.

Remarque, il faut faire très attention à la version que support la version hadoop 2.6.0, en plus de recompiler des projets de l'ecosystème qui supporte en interne des version
antérieure.

https://martin.atlassian.net/wiki/pa...ageId=23494686

hmmm, miam miam, ils doivent s'amuser en production et il doivent pas s'amuser à changer de version souvent.

hadoop est un beau petit cauchemar d'intégration et de migration.

**bordi** · 20/04/2015, 12h46

pour faire suite, j'ai installé hcatalog et j'ai connecte mysql en persistence aud lieu derby, ca marche, je peux utilser le databrowser sur le metastore db

je suis passé à sqoop 1 & 2, pour l'import export db entre base et hdfs

sqoop 1 v1.4.5 ca marchote, je communique avec la base, mais je n'ai pas réussi à le faire detecter par la gui hue

sqoop 2, dans le sqoop.propertie, j'ai des config exemples pour derby, postgres, pas pour mysql qui est aussi supporter

j'ai un problème de conf , pour url et driver, c'est facile, mais il y a conf pour le provider et le handler, la j'ai pas d'info sur mysql.
ca correpons à une implementation sqoop, j'ai fait pas mal d'essai je plante toujours sur le Handler au deploiement
en class not found, faut que je fasse des recherche dans le code du projet sqoop

org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.jdbcMysq.jdbcMysqlRepositoryHandler

# JDBC repository provider configuration

# sqoop implementation
org.apache.sqoop.repository.provider=org.apache.sqoop.repository.JdbcRepositoryProvider
org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.derby.DerbyRepositoryHandler

#derby
org.apache.sqoop.repository.jdbc.url=jdbc:derby:/var/lib/sqoop2/repository/db;create=true
org.apache.sqoop.repository.jdbc.driver=org.apache.derby.jdbc.EmbeddedDriver
org.apache.sqoop.repository.jdbc.user=sa
org.apache.sqoop.repository.jdbc.password=bidon

avoir un exemple de conf sqoop.propertie avec mysql serait le pied, mais c'est introuvable. ce qui fait que je ne
peux démarrer le service sqoop2, mais il semblerai qu'on peut le faire

**bordi** · 21/04/2015, 12h39

suite

pour sqoop2 1.99.5 d'après les source du repo git

Après un regard rapide,

il ne supporterait que postgres et derby, par encore mysql. du moins pas au niveau du sqoop.properties, vue
que le service l'utlise lors du déploiement des qu'on met autre chose, il est normal qu'il plante.

je vais devoir me rabattre sur sqoop1 ou utilisez derby dans sqoop2. ca fait pas trop mes affaires, je vais encore
farfouiiller dans le code de sqoop.

**bordi** · 22/04/2015, 23h09

en attendant de régler mon problème de sqoop,

j'ai installé mahout pour les algo decisionnel, aucun soucis, ça tourne tout seul sur tous les noeuds, j'en reste baba, jusqu'à présent, chaque brique a eu son lot de difficulté,
seul bemol, la gui hue n'a pas d'option pour interagir en direct. on va pas se plaindre,

j'ai commencé spark, d'après ce que j'ai compris, un moteur composé d'api utilisable en scala,java,pytho pour traiter les données en mémoire.
problème je dois utiliser un sous projet jobserver pour permettre l'utilisation d'un service rest par la gui hue,
mais il faut compiler et configurer selon la version hadoop a faire, pour le prochain week end.

**bordi** · 27/04/2015, 19h29

bon, j'ai avancé sur sqoop2

je suis passé à postgresql, a défaut d'avoir mieux, je suis obligé de regarder dans le code pour savoir comment il a défini ses paramètres
de connexion dans le sqooop2.properties.

# Repository provider
org.apache.sqoop.repository.provider=org.apache.sqoop.repository.JdbcRepositoryProvider

# Repository upgrade
# If set to true, it will not upgrade the sqoop respository schema, by default it will iniate the upgrade on server start-up
org.apache.sqoop.repository.schema.immutable=false

# JDBC repository provider configuration
org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.postgresql.PostgresqlRepositoryHandler
org.apache.sqoop.repository.jdbc.transaction.isolation=READ_COMMITTED
org.apache.sqoop.repository.jdbc.maximum.connections=10
org.apache.sqoop.repository.jdbc.url=jdbc:postgresql://stargate:5432/sqoopdb
org.apache.sqoop.repository.jdbc.driver=org.postgresql.Driver
org.apache.sqoop.repository.jdbc.user=hduser
org.apache.sqoop.repository.jdbc.password=

il a apprécié, il a commencé se déployer, mais j'ai rencontré un problème de compatibilité de la version de jar httpclient 4.1.2 de sqoop2 et de http client 4.2.5 de hadoop

java.lang.NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.parse(Ljava/lang/String;Ljava/nio/charset/Charset

Ljava/util/List;
org.apache.hadoop.security.token.delegation.web.ServletUtils.getParameter(ServletUtils.java:48)
org.apache.hadoop.security.token.delegation.web.DelegationTokenAuthenticationHandler.managementOperation(DelegationTokenAuthenticationHandler.java:170)
org.apache.hadoop.security.authentication.server.AuthenticationFilter.doFilter(AuthenticationFilter.java:502)

J'ai copié la version http client d'hadoop dans sqoop2 pour voir, il a bien démarré, je peux exécuter des requêtes rest dessus et il répond, c'est déjà pas mal.
le sqoop2 client fonctionne bien en mode ligne de commande.

Par contre coté gui hue, ca ne veut toujours pas causer avec sqoop2. mais ca progresse, j'ai essayé de configurer hue 3.6 pour les les DB query, sur mysql, mais l'option semblait inactive, j'ai installé hue 3.7.1 j'ai du recompiler, pouf, après déploiement, j'ai eu mes serveurs mysql/postgres visible dans dbquery, mais j'ai perdu la communication avec le service thrift 1 de hbase, que j'ai remis à niveau à son tour.

Mais côté sqoop2 malgré la nouvelle version de la gui, ca veut toujours pas. faut que je cherche pourquoi. la bidouille que j'ai fait avec sqoop2, ne suffit peut être pas.

spark, c'est en suspend, le week end prochain.

En passant j'ai regardé les sandbox de hadoop 1.3 & 2.2 sous virtualbox, sympa, mais on est vite limité et ca rame, j'ai pourtant une machine puissante, mais le déploiement automatique des services
avec la gestion ambari m'intéresse, y a des trucs à piocher dans la conf.

**bordi** · 28/04/2015, 12h27

la réponse, la GUi hue de cloudera ne supporte que jusqu'à la version 1.99.3 de sqoop2, les versions 1.99.4 et 1.99.5 semblent incompatible,
pour cause, ils ont pas mal changer de chose dans la 1.99.5, hue vérifie la version de sqoop2 via un service rest.

je peux maintenant accéder au service sqoop2 dans hue 3.7.1, la contrainte je suis obligé de configurer derby dans le sqoop.propertie
mais je peux utiliser dans hue l'import / export du connecteur generique pour le mysql vers un fichier sur hdfs ou hdfs fichier vers mysql.

l'autre solution aurait été d'utiliser sqoop1 1.4.5 et faire l'appel dans la descripteur de job du workflow.

il me reste plus qu'un problème de permission à régler pour la création du fichier sur l'hdfs entre hue et hadoop.

**bordi** · 11/05/2015, 12h59

Me revoila

après une petite pause, vu le gros morceau que je devais me faire, spark
j'ai attendu d'être en congé.

maintenant que j'ai réglé mes problèmes sqoop 1 & 2, j'ai mainteant les deux, qui m'a obligé à reinstallé une nouvelle version de la gui hue de cloudera sur un hadoop apache,
tout ca bien fait à la main, sans ambarri ou cloudera manager.

je peux passer à la brique suivante spark qui est une alternative au map reduce hadoop, qui est beaucoup plus rapide dans certains cas d'utilisation,

Pour comprendre hive (sql like), pig s'execute dans un contexte de workflow qui appelle le map reduce de chaque noeud et il faut attendre le résultat du traitement des tâches exécutées sur les noeuds,
impala (sql like) et spark s'exécute directement sur le cluster en évitant le map reduce, cela fourni un résultat 3 fois plus rapidement.

je fais part de mon retour d'expérience.

j 'ai installé spark et j'ai configuré sans problème, mis a part l'installation du langage scala, encore un truc à voir,
par contre pour l'utiliser dans la gui, j'ai besoin du sous projet appele job sever spark pour fournir le service rest.

j'ai récupéré le sous projet, le configurer, compiler et déployer la version dans un répertoire de destination, après on peut démarrer le service rest
et il est devenu accessible à partir de la gui. je suis déployé en multi node sur mon cluster.

j'ai pu executer un job exemple sans problème. il dispose de son propre scheduler accessible sur le jobserver de spark via son url.

J'en saurais plus quand je passerai à la programmation de micro appli en juillet, mon objectif étant d'avoir un eco systeme
operationel et configurer. j'ai configuré quasiment toutes les briques accessible par hue, il me reste impala.

j'ai commandé mon second rack avec 2 cm itx, j'aurai un total de 5 datanode, un namenode master, un secondary name node avec
16GB ram par server, ce qui me laisse une config de 6 container executable, suffisant pour jouer au flipper avec mon cluster.

Il reste un très long chemin, cela représente bien un an ou eux de travail personnel, pour tout survoler
mais je pense qu'en septembre j'aurai un bon recul sur hadoop et de son eco systeme sur son utilisation et
sa configuration.

L'intégration d'hadoop et de son ecosysteme est un travail titanesque, j'aurais bientôt une dizaine d'applications,
plus j'en ajoute plus c'est lourd à maintenir, surtout si je monte en version d'hadoop car je dois m'assurer que les autres briques fonctionnent
et reste compatible. si je suis contraint de le faire, le point positif, c'est une bonne cure de rappel en terme configuration.

je reste en hadoop 2.6.0, c'est une version qui est stable, hadoop .2.7 me semble trop jeune et immature pour l'instant, je préfère attendre plutôt
de risquer des incompatibilités partout surtout avec oozie, qui est le plus lourd à configurer et a déployer.

Maintenant que spark & job sever fonctionne, il me reste plus qu'impala à installer (faut que je regarde ce que c'est), toutes les options seront accessibles dans la gui hue.
il me restera 3 ou 4 briques à regarder, genre ganglia pour le monitoring et d'autre brique optionnelle strom, flume,tez, etc....

j'ai installé aussi phoenix, il permet la connection jdbc avec hbase par un script de ligne de commande en python ou par l'utilisation par squirel 3.6, cela oblige à installer les jars phoenix server
dans hbase/lib et phoenix-client dans squirrel/lib, petit mais ca marche pas mal, pas de problème, j'aime bien, ca reste un sql like limité.

après j'aurai terminé mon sujet, et je passerai à un nouveau comme l'utilisation des briques de l'ecosysteme avec des micro applications.

**bordi** · 12/05/2015, 18h55

installation de kafka et de storm,

kafka, ben, si on connait jms, kafka y ressemble beaucoup, c'est un mécanisme de message basé sur le consumer/producer, qui intègre le système
hadoop, configuration/installation facile. il s'appui sur zookeeper.

storm - developer part twitter, il est relativement simple à configurer et à installer, déploement en multinode.

D'après ce que j'ai compris c'est un langage pour faire l'analytique en temps réel avec son scheduler pour gérer les job,
yahoo et hortonworks travaillent dessus pour enrichir ses fonctionnalités.

La différence réside dans la façon de traiter les données, spark est orienté batch processing, storm est orienté stream processing
dans les deux cas, ils font du micro batching, spark peut travailler aussi en streaming,

Spark fonctionne en alternatif du mécanisme map reduce en beaucoup plus rapide sauf qu'il utilise beaucoup de mémoire(faut bien passer à la caisse quelque part),
Storm répond à des problématique de temps réel et utilise des flux.

Il y a une différence essentielle entre storm et spark.

Spark effectue des calculs de données en parallèle (http://en.wikipedia.org/wiki/Data_parallelism).

Storm effectue les calculs des tâches parallèles (http://en.wikipedia.org/wiki/Task_parallelism).

lien interessant, a prendre considération selon les besoins
http://xinhstechblog.blogspot.fr/201...e-by-side.html

bon, reste à installer Flume, Tez, Slider, Falcon

**bordi** · 12/05/2015, 21h43

bon, je me suis fait un petit dernier, j'ain installé TEZ, pour comprendre, c'est la réponse pour améliorer les temps traitements de hive et de pig
face à spark, chacun défend sa crèmerie.

ca bataille entre les deux acteurs, tez supporté par hortonworks et spark supporté par cloudera, moi je prends tout,

https://www.xplenty.com/blog/2015/01...ez-comparison/

voila le résultat, mais j'ai du mal a voir si c'est effectivement plus rapide avec tez qu'avec l'ancien moteur, au moins ca me permet de voir que ca marche
il faut regarder les bench

hadoop jar ./tez-dist/target/tez-0.5.3/tez-examples-0.5.3.jar orderedwordcount /tests/tez-examples/in /tests/tez-examples/out

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/tez-0.5.3-incubating/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/05/12 21:28:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
hduser@stargate:~/apache-tez-0.5.3-src$ hadoop jar ./tez-dist/target/tez-0.5.3/tez-examples-0.5.3.jar orderedwordcount /tests/tez-examples/in /tests/tez-examples/out
Running OrderedWordCount
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/tez-0.5.3-incubating/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/05/12 21:28:42 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/05/12 21:28:42 INFO client.TezClient: Tez Client Version: [ component=tez-api, version=0.5.3, revision=${buildNumber}, SCM-URL=scm:git:https://git-wip-us.apache.org/repos/asf/tez.git, buildTime=20150512-1933 ]
15/05/12 21:28:42 INFO client.RMProxy: Connecting to ResourceManager at stargate/192.168.0.11:8032
15/05/12 21:28:43 INFO client.TezClient: Submitting DAG application with id: application_1431457599870_0012
15/05/12 21:28:43 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS
15/05/12 21:28:43 INFO client.TezClientUtils: Using tez.lib.uris value from configuration: hdfs://192.168.0.11:9000/apps/tez-0.5.3-incubating,hdfs://192.168.0.11:9000/apps/tez-0.5.3-incubating/lib/
15/05/12 21:28:43 INFO client.TezClient: Tez system stage directory hdfs://192.168.0.11:9000/tmp/hduser/tez/staging/.tez/application_1431457599870_0012 doesn't exist and is created
15/05/12 21:28:44 INFO client.TezClient: Submitting DAG to YARN, applicationId=application_1431457599870_0012, dagName=OrderedWordCount
15/05/12 21:28:44 INFO impl.YarnClientImpl: Submitted application application_1431457599870_0012
15/05/12 21:28:44 INFO client.TezClient: The url to track the Tez AM: http://stargate:8088/proxy/applicati...57599870_0012/
15/05/12 21:28:44 INFO client.RMProxy: Connecting to ResourceManager at stargate/192.168.0.11:8032
15/05/12 21:28:44 INFO client.DAGClientImpl: Waiting for DAG to start running
15/05/12 21:28:52 INFO client.DAGClientImpl: DAG initialized: CurrentState=Running
15/05/12 21:28:53 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:53 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 0% TotalTasks: -1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:53 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:54 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 0% TotalTasks: 2 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 50% TotalTasks: 2 Succeeded: 1 Running: 1 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
15/05/12 21:29:00 INFO client.DAGClientImpl: DAG: State: SUCCEEDED Progress: 100% TotalTasks: 2 Succeeded: 2 Running: 0 Failed: 0 Killed: 0
15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
15/05/12 21:29:00 INFO client.DAGClientImpl: DAG completed. FinalState=SUCCEEDED

Pour impala, il serait propriétaire, il est présent dans la distribution de cloudera, j'ai pas vu de version apache, il semble inclut aussi dans la distribution mapr,
mais pas dans hortonworks, malheureusement c'est effectivement beaucoup plus rapide que hive, tout dépend à quelle échelle on travaille sur la datamasse qu'on
souhaite traiter.

**bordi** · 13/05/2015, 16h12

Suite,

installation de Flume, sympa, ca collecte les flux stdin/stoud/... via un agent venant de log ou de fichier pour les stocker ailleurs,
dans un hdfs, netcat, tail, etc. via les channels, c'est simple à installer.

installation et configuration accumulo, c'est un équivalent de hbase qui sont tous deux une implémentation de big table de google (nosql db)

il sont quasiment identique,

hbase a plus de support et il est mieux intégré dans l'ecosystem hadoop,
accumulo dispose d'un niveau sécurité et de contrôle d'accès jusqu'au niveau du champ qu'hbase n'a pas,

Le besoin est selon l'utilisation qu'on souhaite en faire. Pas de problème, même niveau de config que hbase/zookeeper.

Falcon - d'après ce que j'ai compris, il est fait normalement pour de la replication ou de l'acheminement de données, faut que je compile le projet pour déployer,
et ca plantouille en je sais pas quoi dans maven, duplicated in reactor. il a du mal. ce projet m'a l'air aussi bizarre qu'oozie (scheduler worflow). en plus
il a besoin d'oozie pour compiler. je passe à slider en attendant de voir ca.

**bordi** · 14/05/2015, 15h26

suite à mon interrogation de TEZ, je m'étonnais du manque de performance sur les job hive & pig, normalement ils auraient du être nettement plus performant avec TEZ

Après avoir regarder la log, c'est normal, la gui hue / sheduler oozie utilise toujours le map reduce, seul le program java utilise l'implementation TEZ,
faudra que je creuse, y a peut être une limitation quelque part, je pense que c'est oozie, en tout il semble être capable d'utiliser les deux mode.
TEZ et Map Reduce

comme le montre la log du scheduler , on constate l'executionMAPREDUCE pour les job pig & hive et de TEZ pour le jar example OrderedWordCount de TEZ

application_1431457599870_0014 hduser oozie:launcher:T=pig:W=pig-app-hue-script:A=pig:ID=0000000-150512122111409-oozie-hdus-W MAPREDUCE default Tue, 12 May 2015 21:07:14 GMT Tue, 12 May 2015 21:07:34 GMT FINISHED SUCCEEDED
History
application_1431457599870_0013 hduser SELECT sample_07.description, sample_…1000(Stage-1) MAPREDUCE default Tue, 12 May 2015 20:05:17 GMT Tue, 12 May 2015 20:05:59 GMT FINISHED SUCCEEDED
History
application_1431457599870_0012 hduser OrderedWordCount TEZ default Tue, 12 May 2015 19:28:44 GMT Tue, 12 May 2015 19:29:05 GMT FINISHED SUCCEEDED
History
application_1431457599870_0011 hduser OrderedWordCount TEZ default Tue, 12 May 2015 19:27:46 GMT Tue, 12 May 2015 19:28:02 GMT FINISHED SUCCEEDED

J'ai presque fini mon ecosystème, il me reste slider, qui est en cours, il faut utiliser maven 3 sinon ca plante, faut compiler le projet c'est un docker pour deployer facilement les application avec des descripteur deploiement au sein du cluster hadoop.

Reste le cas epineux de falcon, mécanisme de replication, il utilise en sous main oozie et activemq. je ne sais pas si cela s'avère utile de l'installer. je vais voir.

Les outils de security tel que kerberos,sentry, knox.. ou de monitoring, ca sera pour autre sujet.

**bordi** · 14/05/2015, 19h22

un peu lourd slider, pas beaucoup d'info, j'ai du construire un exemple, c'est ce qui m'a pris le plus de temps, mais ca semble marcher. ma version python est 2.7 et il a besoin une 2.6
des erreurs lors du destroy de façon aléatoire. bizarre, il y a une petite imcompatibilité python mais l'instance est détruite.

il faut écrire un resources.json et appConfig.json pour le descripteur de deploiement,
respecter la hierarchie des package dans le zip qui contient l'appli à deployer

après on peut installer l'appli, on peut creer une instance de cet application, démarrer l'instance,stopper l'instance, détruire l'instance

c'est intéressant car l'appli est installer sur hdfs. il faut prendre garde, l'application est déployer sous le compte utilisateur dans la hdfs.

installation du package applicatif à deployer sur hdfs, avec option overwrite sur l'ancienne version (-replacepkg)

./bin/slider install-package --name MEMCACHED --package memcached.zip --replacepkg

2015-05-14 18:38:39,547 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-14 18:38:39,703 [main] INFO client.SliderClient - Installing package file:/usr/local/slider-0.61.0-incubating/testdeployment/memcached.zip at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip and overwrite is false.
2015-05-14 18:38:39,723 [main] ERROR main.ServiceLauncher - Pkg exists at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip. Use --replacepkg to overwrite.
2015-05-14 18:38:39,725 [main] INFO util.ExitUtil - Exiting with status 40
hduser@stargate:/usr/local/slider/testdeployment$ history | grep isntall^C
hduser@stargate:/usr/local/slider/testdeployment$ ./../bin/slider install-package --name MEMCACHED --package memcached.zip --replacepkg
2015-05-14 18:39:03,078 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-14 18:39:03,233 [main] INFO client.SliderClient - Installing package file:/usr/local/slider-0.61.0-incubating/testdeployment/memcached.zip at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip and overwrite is true.
2015-05-14 18:39:03,513 [main] INFO util.ExitUtil - Exiting with status 0
hduser@stargate:/usr/local/slider/testdeployment$ cd ..

creation instance application memcached

hduser@stargate:/usr/local/slider$ ./bin/slider create cl1 --template appConfig.json --resources resources.json

hduser@stargate:/usr/local/slider2015-05-14 18:53:55,363 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-14 18:53:55,899 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:53:55,900 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:53:56,022 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
2015-05-14 18:53:56,606 [main] INFO client.SliderClient - No credentials requested
2015-05-14 18:53:56,702 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:53:56,707 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
2015-05-14 18:53:56,763 [main] INFO launch.AbstractLauncher - Log include patterns:
2015-05-14 18:53:56,763 [main] INFO launch.AbstractLauncher - Log exclude patterns:
2015-05-14 18:53:57,198 [main] INFO slideram.SliderAMClientProvider - Loading all dependencies for AM.
2015-05-14 18:53:57,198 [main] INFO tools.SliderUtils - Loading all dependencies from /usr/local/slider-0.61.0-incubating/lib
2015-05-14 18:54:00,754 [main] INFO agent.AgentClientProvider - Automatically uploading the agent tarball at hdfs://stargate:9000/user/hduser/.slider/cluster/cl1/tmp/application_1431457599870_0015/agent
2015-05-14 18:54:00,877 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:54:00,877 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:54:00,881 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
2015-05-14 18:54:00,890 [main] INFO Configuration.deprecation - slider.registry.path is deprecated. Instead, use hadoop.registry.zk.root
2015-05-14 18:54:00,893 [main] INFO launch.AppMasterLauncher - Submitting application to Resource Manager
2015-05-14 18:54:00,954 [main] INFO impl.YarnClientImpl - Submitted application application_1431457599870_0015
2015-05-14 18:54:00,956 [main] INFO util.ExitUtil - Exiting with status 0

start application instance cl1

/bin/slider start cl1

2015-05-14 18:59:27,088 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-14 18:59:28,053 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:59:28,070 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
2015-05-14 18:59:28,189 [main] INFO launch.AbstractLauncher - Log include patterns:
2015-05-14 18:59:28,189 [main] INFO launch.AbstractLauncher - Log exclude patterns:
2015-05-14 18:59:29,045 [main] INFO slideram.SliderAMClientProvider - Loading all dependencies for AM.
2015-05-14 18:59:29,046 [main] INFO tools.SliderUtils - Loading all dependencies from /usr/local/slider-0.61.0-incubating/lib
2015-05-14 18:59:32,909 [main] INFO agent.AgentClientProvider - Automatically uploading the agent tarball at hdfs://stargate:9000/user/hduser/.slider/cluster/cl1/tmp/application_1431457599870_0016/agent
2015-05-14 18:59:33,008 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:59:33,008 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
2015-05-14 18:59:33,013 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
2015-05-14 18:59:33,025 [main] INFO Configuration.deprecation - slider.registry.path is deprecated. Instead, use hadoop.registry.zk.root
2015-05-14 18:59:33,027 [main] INFO launch.AppMasterLauncher - Submitting application to Resource Manager
2015-05-14 18:59:33,046 [main] INFO impl.YarnClientImpl - Submitted application application_1431457599870_0016
2015-05-14 18:59:33,047 [main] INFO util.ExitUtil - Exiting with status 0

stop application instance cl1

./bin/slider stop cl1
2015-05-14 19:00:11,454 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-14 19:00:11,882 [main] INFO util.ExitUtil - Exiting with status 0

./bin/slider destory cl1

on peut voir l'application sous l'instance cl1 déployer dans hadoop dans la liste

http://x.x.x.x:8088/cluster

application_1431457599870_0019 hduser cl1 org-apache-slider default Thu, 14 May 2015 17:23:05 GMT N/A ACCEPTED UNDEFINED UNASSIGNED

detail application

User: hduser
Name: cl1
Application Type: org-apache-slider
Application Tags: version: 1.0.0,name: memcached,description: memcache is a network accessible key/value storage system, often used as a di...
State: RUNNING
FinalStatus: UNDEFINED
Started: 14-mai-2015 19:23:05
Elapsed: 2mins, 23sec
Tracking URL: ApplicationMaster
Diagnostics:

bon, il me reste plus que falcon,

**bordi** · 15/05/2015, 15h48

Falcon

il n'y a pas de tarball disponible, je suis obligé de compiler le projet et il n'est pas très petit

mais quand je compile, les repositories de codehaus sont en train de fermer et ne sont plus accessible,

résultat erreur 503 service indisponible

je cherche une alternative, c'était mon dernier module, ça commence fort.

INFO] ————————————————————————
[INFO] BUILD FAILURE
[INFO] ————————————————————————
[INFO] Total time: 02:17 min
[INFO] Finished at: 2015-05-15T13:26:01+01:00
[INFO] Final Memory: 106M/529M
[INFO] ————————————————————————
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.2:site (default) on project falcon-docs: SiteToolException: The site descriptor cannot be resolved from the repository: ArtifactResolutionException: Unable to locate site descriptor: Could not transfer artifact org.apache:apache

ml:site_en:13 from/to Codehaus repository (http://repository.codehaus.org/): Failed to transfer file: http://repository.codehaus.org/org/a...13-site_en.xml. Return code is: 503 , ReasonPhrase:Service Temporarily Unavailable.
[ERROR] org.apache:apache

ml:13

if i go on site

https://www.codehaus.org

ll Codehaus services will be terminated progressively until May 17th 2015

If you have been directed here, then the service you are accessing may have been disabled already, or we are trying to get your attention by blacking out services early.

fisheye.codehaus.org Service terminated
dist.codehaus.org May 1 – temporary redirect to this page
dist.codehaus.org May 5 onwards – HTTPS only
repository.codehaus.org May 1 – temporary redirect to this page
repository.codehaus.org May 5 onwards – HTTPS only
bamboo-ci.codehaus.org May 1 – May 5, builds disabled
bamboo-ci.codehaus.org May 6 onwards, offline

La je sais pas comment je vais faire ca, je suis allé sur le site mirroir dont il parle, mais il n'y a pas le fichier qu'il cherche.

**bordi** · 15/05/2015, 18h06

Il me restait un truc un suspend sur slider, en effet pour une raison que je ne comprenais pas je plantais lors du destroy de l'instance applicative
l'instance était bien détruire sur le hdfs, mais l'état restait application in use exit code 73, ce qui fait qu'on ne pouvait relancer une nouvelle instance.
maintenant c'est réglé.

c'est un probleme de port number pour zookeeper, j'avais mis 2180 au lieu de 2181, est cela avait pour effet de faire planter méchamment slider

hduser@stargate:/usr/local/slider$ ./bin/slider destroy cl1
2015-05-15 17:28:49,170 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-15 17:28:49,501 [main] INFO zk.BlockingZKWatcher - waiting for ZK event
2015-05-15 17:28:49,505 [main-SendThread(stargate:2180)] WARN zookeeper.ClientCnxn - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
Exception in thread Thread-2:
Traceback (most recent call last):
File "/usr/lib/python2.7/threading.py", line 810, in __bootstrap_inner
self.run()
File "/usr/lib/python2.7/threading.py", line 763, in run
self._target(*self.args, **self._kwargs)
File "/usr/local/slider-0.61.0-incubating/bin/slider.py", line 168, in print_output
(line, done) = read(src, line)
File "/usr/local/slider-0.61.0-incubating/bin/slider.py", line 146, in read
o = c.decode('utf-8')
File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 0: unexpected end of data

après correctif du fichier configuration slider-client.xml, ca marche nettement mieux avec le bon port zookeeper

hduser@stargate:/usr/local/slider$ ./bin/slider destroy cl1
2015-05-15 17:53:33,772 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
2015-05-15 17:53:34,074 [main] INFO zk.BlockingZKWatcher - waiting for ZK event
2015-05-15 17:53:34,183 [main-EventThread] INFO zk.BlockingZKWatcher - ZK binding callback received
2015-05-15 17:53:35,484 [main] INFO client.SliderClient - Destroyed cluster cl1
2015-05-15 17:53:35,487 [main] INFO util.ExitUtil - Exiting with status 0

**bordi** · 15/05/2015, 23h13

Je ne peux pas installer Falcon, vu que les repo de codehaus sont arrêtés définitivement, de ce fait je ne peux pas compiler le projet selon la version hadoop/oozie
de l'installation, j'ai ouvert un jira chez la falcon team.

J'avais également ouvert un jira chez la slider team, d'un problème mineur de config, cela a révéler un gros bug potentiel dans leur module,
ils sont obligés de corriger pour la prochaine version.

J'évite solr, parce que cela ouvre un autre gros sujet, les crawler.
La sécurité et le monitoring, supervision, plus tard
La réplication, les sauvegardes incrémentale et les réparations du système, plus tard

J'ai terminé l'installation d'hadoop et de son écosystème. le tout manuellement sans l'aide d'installateur, ca m'a permis de voir directement les problèmes de chacun des modules
et j'ai beaucoup appris.

1 map reduce
2 pig
3 hive
4 storm
5 spark
6 sqoop 1&2
7 flume
8 kafka
9 slider
10 hbase
11 accumulo
12 tez
13 mahout
14 phoenix
15 zookeeper
16 hue

cela me fait 16 composants, de quoi m'occuper, pendant les 3 prochains mois.

Beaucoup de questions et peu de réponses, les forums sur hadoop sont bien déserts,

Je peux passer maintenant au sujet suivant, après le big data, je vais travailler sur le big analytic,
je vais utiliser et programmer l'écosystème que je viens d'installer.

A voir si je repars pour un nouveau fil avec plein d'aventure de programmatique en pig,mapreduce, mahout, hive, spark,storm,hbase,etc..,...
va falloir je trouve quelques applications concrète à faire qui justifie le big data, surtout autre chose que du word count à toutes les sauces.
je commencerai par le trio d'enfer de la team pig & hive & map reduce.

En tout cas, après ces quelques apéritifs, j'ai bien envie de commencer les entrées. le chemin est encore long.

Peut être à une prochaine fois.

JP

Installation et configuration hadoop 2 & ecosysteme

Hadoop & co

Discussions similaires

Partager

Partager