Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Installation et configuration hadoop 2 & ecosysteme


Sujet :

Hadoop & co

  1. #1
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut Installation et configuration hadoop 2 & ecosysteme
    Bonjour

    Je vois que des gens s'intéressent au bigdata ici

    Je suis en train de monter un vrai cluster hadoop 2.6.0 avec yarn (apache hortonwork)

    j'ai un master i7, 8GB , j'attends la mémoire pour monter à 16GB, et deux esclave datanode amd avec 16 GB ram,


    Après avoir installé ubuntu 14.4 sur mes machines, j'ai d'abord régler tous les problèmes réseaux pour permettre la visibilité entre node.

    la distribution fichier hdfs fonctionne bien entre node, rien à dire de ce côté, la.

    la principale difficultée que je rencontre c'est de déterminer les ressources nécessaire à la configuration d'hadoop 2 pour yarn/mapred2, c'est
    pas de la tarte.

    j'ai trouvé un utilitaire sympa yarn-util.py en python qui aide à calculer la config.

    La configuration du nodemanager/resoucemanager de hadoop 2 et de 8GB ram par défaut. j'ai aligné la configuration selon à mes ressources
    en attendant que je sois à 16GB ram partout, je serais plus à l'aise pour ma conf.

    normalement une config de 48GB ram par machine (40GB pour hadoop) permet de créer une vingtaine de container pour l'exécution des map reduce.

    compte tenu de ma config, je me contenterai de 2-4 container pour le map reduce.

    en terme d'intégration, c'est du boulot.

    Pour une raison que j'ignore, j'arrive a lancer avec la gui hue, une tache pig sur le cluster qui se termine et à d'autres moment elle reste en attente infini ou voir
    des hear beat (signe de problème de config des resources) malgré le restart de yarn. les erreusr ne sont pas très explicite en hadoop.

    j'ai installé dans un premier temps,apache hadoop 2.6, pig 0.13.1, hive 0.13.1, oozie 4.0.1 (difficile à installer), hbase 0.98.7.hadoop2, zookeeper

    je n'utilise pas ambari. j'y vais à la main.

    Avec la gui hue je lance des taches pig qui s'executent via le workflow oozie et les résultats sont assez aléatoire, je n'arrive pas à comprendre pourquoi après démarrage
    le même type de job fonctionne avec succes, reste souvent en attente infini, voir des message hear beat. alors que je n'utilise qu'un seul container pour ma tâche.

    pour l'instant je rame un peu, donc je google et je cherche des idées, je pense que c'est ma config qui est très sensible en hadoop
    qui est mal définie au niveau yarn-site.xml, mapred-site.xml

    si vous avez des idées sur le sujet, je suis preneur, en attendant je repars à la bagarre, j'aime pas les trucs qui marchote et je finirai
    bien par comprendre.

    KR
    JP

  2. #2
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    ce qui est surprenant, j'ai réglé mon hadoop pour gérer au moins 6 container map reduce avec l'aide de l'outil yarn-util
    qui m'a permis de setter le yarn-site.xml et el mapred-site.xml selon ma config.

    Néanmoins, mes taches pig bloque toujours lors de l'exécution 9 fois sur 10, normalement quand cela s'exécute correctement,
    j'ouvre 2 tâches oozie/pig.

    Mais la plupart j'en ai 1 ou voir 3/4 selon le lancement, a 1 ca reste en attente,
    avec 3 ou 4 instance, je commence à avoir des logs, jusqu'au blocage pour l'attente de la disponibilité d'un container.
    j'ai visiblement un problème de planification de la distribution 'instance par le ressource manager aux nodes manager.

    je continu, je vais analyser mes logs en détail, et ensuite je verrai une config générée avec l'aide d'ambari.
    je ferais mon retour d'expérience, il est difficile de trouver des forum ou il y a de l'hadoop, comme le disait quelqu'un
    hadoop est un monde de souffrance permanente, je relève le gant.

    Using cores=4 memory=8GB disks=3 hbase=False
    Profile: cores=4 memory=6144MB reserved=2GB usableMem=6GB disks=3
    Num Container=6
    Container Ram=1024MB
    Used Ram=6GB
    Unused Ram=2GB
    yarn.scheduler.minimum-allocation-mb=1024
    yarn.scheduler.maximum-allocation-mb=6144
    yarn.nodemanager.resource.memory-mb=6144
    mapreduce.map.memory.mb=1024
    mapreduce.map.java.opts=-Xmx819m
    mapreduce.reduce.memory.mb=2048
    mapreduce.reduce.java.opts=-Xmx1638m
    yarn.app.mapreduce.am.resource.mb=2048
    yarn.app.mapreduce.am.command-opts=-Xmx1638m
    mapreduce.task.io.sort.mb=409

  3. #3
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    bon, j'avance, malgré mes questions sur plusieurs forum hadoop, y en a pas beaucoup qui puissent répondre.
    tant pis, je donne un feedback de ma progression pour la mémoire.

    j'avance, pas aussi vite que je le voudrais, mais je progresse pas mal dans la prise de connaissance.

    voici ma logs d'une tache pig exécuté au niveau cluster hadoop et l'utilisation du map reduce et du yarn
    il compte le nombre de mot contenu dans un fichier, vu la complexité et l'instabilité de mon cluster je fais simple.

    il stocke le résultat du comptage mot par mot dans un fichier output

    hadoop+pig+oozie+hue.

    Sucessful job pig work on my cluster,

    Apache Pig version 0.10.1 (r1426282)
    compiled Dec 27 2012, 11:23:06

    Run pig script using PigRunner.run() for Pig version 0.8+
    2015-04-08 10:06:09,906 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.1 (r1426282) compiled Dec 27 2012, 11:23:06
    2015-04-08 10:06:09,906 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.1 (r1426282) compiled Dec 27 2012, 11:23:06
    2015-04-08 10:06:09,909 [main] INFO org.apache.pig.Main - Logging error messages to: /tmp/hadoop-hduser-hue/nm-local-dir/usercache/hduser/appcache/application_1428479880621_0002/container_1428479880621_0002_01_000002/pig-job_1428479880621_0002.log
    2015-04-08 10:06:09,909 [main] INFO org.apache.pig.Main - Logging error messages to: /tmp/hadoop-hduser-hue/nm-local-dir/usercache/hduser/appcache/application_1428479880621_0002/container_1428479880621_0002_01_000002/pig-job_1428479880621_0002.log
    2015-04-08 10:06:09,943 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - user.name is deprecated. Instead, use mapreduce.job.user.name
    2015-04-08 10:06:10,372 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://stargate:9000
    2015-04-08 10:06:10,372 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://stargate:9000
    2015-04-08 10:06:10,380 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
    2015-04-08 10:06:12,418 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: GROUP_BY,ORDER_BY,FILTER
    2015-04-08 10:06:12,418 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: GROUP_BY,ORDER_BY,FILTER
    2015-04-08 10:06:12,641 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.textoutputformat.separator is deprecated. Instead, use mapreduce.output.textoutputformat.separator
    2015-04-08 10:06:12,971 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - File concatenation threshold: 100 optimistic? false
    2015-04-08 10:06:12,971 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - File concatenation threshold: 100 optimistic? false
    2015-04-08 10:06:13,072 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.CombinerOptimizer - Choosing to move algebraic foreach to combiner
    2015-04-08 10:06:13,072 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.CombinerOptimizer - Choosing to move algebraic foreach to combiner
    2015-04-08 10:06:13,153 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size before optimization: 3
    2015-04-08 10:06:13,153 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size before optimization: 3
    2015-04-08 10:06:13,154 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size after optimization: 3
    2015-04-08 10:06:13,154 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size after optimization: 3
    2015-04-08 10:06:13,358 [main] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-04-08 10:06:13,991 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:06:13,991 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:06:14,012 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.reduce.markreset.buffer.percent is deprecated. Instead, use mapreduce.reduce.markreset.buffer.percent
    2015-04-08 10:06:14,012 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:06:14,012 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:06:14,013 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.output.compress is deprecated. Instead, use mapreduce.output.fileoutputformat.compress
    2015-04-08 10:06:14,021 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job3082232122459886865.jar
    2015-04-08 10:06:14,021 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job3082232122459886865.jar
    2015-04-08 10:06:17,861 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job3082232122459886865.jar created
    2015-04-08 10:06:17,861 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job3082232122459886865.jar created
    2015-04-08 10:06:17,862 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.jar is deprecated. Instead, use mapreduce.job.jar
    2015-04-08 10:06:17,940 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:06:17,940 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - BytesPerReducer=1000000000 maxReducers=999 totalInputFileSize=2502
    2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - BytesPerReducer=1000000000 maxReducers=999 totalInputFileSize=2502
    2015-04-08 10:06:18,030 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.reduce.tasks is deprecated. Instead, use mapreduce.job.reduces
    2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Neither PARALLEL nor default parallelism is set for this job. Setting number of reducers to 1
    2015-04-08 10:06:18,030 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Neither PARALLEL nor default parallelism is set for this job. Setting number of reducers to 1
    2015-04-08 10:06:18,178 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:06:18,178 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:06:18,179 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker.http.address is deprecated. Instead, use mapreduce.jobtracker.http.address
    2015-04-08 10:06:18,179 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
    2015-04-08 10:06:18,190 [Thread-15] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-04-08 10:06:18,328 [Thread-15] INFO org.apache.hadoop.conf.Configuration.deprecation - yarn.client.max-nodemanagers-proxies is deprecated. Instead, use yarn.client.max-cached-nodemanagers-proxies
    2015-04-08 10:06:18,329 [Thread-15] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
    2015-04-08 10:06:19,088 [Thread-15] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
    2015-04-08 10:06:19,089 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:06:19,089 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:06:19,114 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:06:19,114 [Thread-15] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:06:19,861 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
    2015-04-08 10:06:20,044 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0003
    2015-04-08 10:06:20,045 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@265e1006)
    2015-04-08 10:06:20,046 [Thread-15] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
    2015-04-08 10:06:20,922 [Thread-15] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0003
    2015-04-08 10:06:21,055 [Thread-15] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0003/
    2015-04-08 10:06:21,055 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0003
    2015-04-08 10:06:21,055 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0003
    2015-04-08 10:06:21,056 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0003
    2015-04-08 10:06:21,056 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0003
    2015-04-08 10:06:21,165 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete
    2015-04-08 10:06:21,165 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete
    2015-04-08 10:06:30,693 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 16% complete
    2015-04-08 10:06:30,693 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 16% complete
    Heart beat
    2015-04-08 10:06:44,406 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 33% complete
    2015-04-08 10:06:44,406 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 33% complete
    2015-04-08 10:06:46,537 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:06:46,537 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:06:46,540 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:06:46,540 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:06:46,542 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job2683633827201366673.jar
    2015-04-08 10:06:46,542 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job2683633827201366673.jar
    2015-04-08 10:06:49,642 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job2683633827201366673.jar created
    2015-04-08 10:06:49,642 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job2683633827201366673.jar created
    2015-04-08 10:06:49,669 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:06:49,669 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:06:49,732 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:06:49,732 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:06:49,733 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
    2015-04-08 10:06:49,738 [Thread-29] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-04-08 10:06:49,779 [Thread-29] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
    2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
    2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:06:50,266 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:06:50,267 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:06:50,267 [Thread-29] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:06:50,413 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
    2015-04-08 10:06:50,545 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0004
    2015-04-08 10:06:50,545 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@77a793df)
    2015-04-08 10:06:50,546 [Thread-29] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
    2015-04-08 10:06:50,846 [Thread-29] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0004
    2015-04-08 10:06:50,856 [Thread-29] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0004/
    2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0004
    2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0004
    2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0004
    2015-04-08 10:06:50,857 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0004
    2015-04-08 10:07:00,615 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% complete
    2015-04-08 10:07:00,615 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% complete
    2015-04-08 10:07:06,849 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 66% complete
    2015-04-08 10:07:06,849 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 66% complete
    Heart beat
    2015-04-08 10:07:11,533 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:07:11,533 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job
    2015-04-08 10:07:11,535 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:07:11,535 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3
    2015-04-08 10:07:11,537 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job6609113403299452445.jar
    2015-04-08 10:07:11,537 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job6609113403299452445.jar
    2015-04-08 10:07:14,599 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job6609113403299452445.jar created
    2015-04-08 10:07:14,599 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job6609113403299452445.jar created
    2015-04-08 10:07:14,608 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:07:14,608 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job
    2015-04-08 10:07:14,658 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:07:14,658 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.
    2015-04-08 10:07:14,658 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
    2015-04-08 10:07:14,662 [Thread-44] INFO org.apache.hadoop.yarn.client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-04-08 10:07:14,697 [Thread-44] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
    2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
    2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:07:15,112 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
    2015-04-08 10:07:15,113 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:07:15,113 [Thread-44] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1
    2015-04-08 10:07:15,253 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1
    2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Submitting tokens for job: job_1428479880621_0005
    2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: mapreduce.job, Service: job_1428479880621_0002, Ident: (org.apache.hadoop.mapreduce.security.token.JobTokenIdentifier@4448ca69)
    2015-04-08 10:07:15,370 [Thread-44] INFO org.apache.hadoop.mapreduce.JobSubmitter - Kind: RM_DELEGATION_TOKEN, Service: 192.168.0.11:8032, Ident: (owner=hduser, renewer=oozie mr token, realUser=hduser, issueDate=1428480351078, maxDate=1429085151078, sequenceNumber=6, masterKeyId=2)
    2015-04-08 10:07:15,608 [Thread-44] INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl - Submitted application application_1428479880621_0005
    2015-04-08 10:07:15,616 [Thread-44] INFO org.apache.hadoop.mapreduce.Job - The url to track the job: http://stargate:8088/proxy/applicati...79880621_0005/
    2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0005
    2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_1428479880621_0005
    2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0005
    2015-04-08 10:07:15,617 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://stargate:50030/jobdetails.jsp...479880621_0005
    2015-04-08 10:07:25,239 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 83% complete
    2015-04-08 10:07:25,239 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 83% complete
    Heart beat
    2015-04-08 10:07:46,040 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% complete
    2015-04-08 10:07:46,040 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% complete
    2015-04-08 10:07:46,051 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:

    HadoopVersion PigVersion UserId StartedAt FinishedAt Features
    2.6.0 0.10.1 hduser 2015-04-08 10:06:13 2015-04-08 10:07:46 GROUP_BY,ORDER_BY,FILTER

    Success!

    Job Stats (time in seconds):
    JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MaxReduceTime MinReduceTime AvgReduceTime Alias Feature Outputs
    job_1428479880621_0003 1 1 3 3 3 10 10 10 filtered_words,input_lines,word_count,word_groups,words GROUP_BY,COMBINER
    job_1428479880621_0004 1 1 2 2 2 3 3 3 ordered_word_count SAMPLER
    job_1428479880621_0005 1 1 3 3 3 14 14 14 ordered_word_count ORDER_BY /usr/hadoop/numberwords,

    Input(s):
    Successfully read 10 records (2907 bytes) from: "/usr/hadoop/compare_journal_216781270000000_20141014_154039.output"

    Output(s):
    Successfully stored 11 records (102 bytes) in: "/usr/hadoop/numberwords"

    Counters:
    Total records written : 11
    Total bytes written : 102
    Spillable Memory Manager spill count : 0
    Total bags proactively spilled: 0
    Total records proactively spilled: 0

    Job DAG:
    job_1428479880621_0003 -> job_1428479880621_0004,
    job_1428479880621_0004 -> job_1428479880621_0005,
    job_1428479880621_0005


    2015-04-08 10:07:46,051 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:

    HadoopVersion PigVersion UserId StartedAt FinishedAt Features
    2.6.0 0.10.1 hduser 2015-04-08 10:06:13 2015-04-08 10:07:46 GROUP_BY,ORDER_BY,FILTER

    Success!

    Job Stats (time in seconds):
    JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MaxReduceTime MinReduceTime AvgReduceTime Alias Feature Outputs
    job_1428479880621_0003 1 1 3 3 3 10 10 10 filtered_words,input_lines,word_count,word_groups,words GROUP_BY,COMBINER
    job_1428479880621_0004 1 1 2 2 2 3 3 3 ordered_word_count SAMPLER
    job_1428479880621_0005 1 1 3 3 3 14 14 14 ordered_word_count ORDER_BY /usr/hadoop/numberwords,

    Input(s):
    Successfully read 10 records (2907 bytes) from: "/usr/hadoop/compare_journal_216781270000000_20141014_154039.output"

    Output(s):
    Successfully stored 11 records (102 bytes) in: "/usr/hadoop/numberwords"

    Counters:
    Total records written : 11
    Total bytes written : 102
    Spillable Memory Manager spill count : 0
    Total bags proactively spilled: 0
    Total records proactively spilled: 0

    Job DAG:
    job_1428479880621_0003 -> job_1428479880621_0004,
    job_1428479880621_0004 -> job_1428479880621_0005,
    job_1428479880621_0005


    2015-04-08 10:07:47,057 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:48,059 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:49,060 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:42269. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:49,179 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
    2015-04-08 10:07:52,427 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:53,428 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:54,429 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: stargate/192.168.0.11:36625. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    2015-04-08 10:07:54,535 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
    2015-04-08 10:07:55,254 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server

  4. #4
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    J'ai pu enfin comprendre un de mes problèmes, le fait que ma tache application plante sur un node esclave et pas sur le node du master.
    chaque fois que le (RM) resourcemanager envoi aux nodes manager (NM) datanode esclave.

    Le NM déclenche le lancement d'une jvm pour déployer le conteneur qui contient les scripts, les jars pour l'execution du progamme, les config liés à la tâche,
    elle doit avoir assez de mémoire pour s'exécuter.

    Ce conteneur sera automatiquement détruit après exécution. mais on peut y accéder pour voir les logs local et identifier le problème.

    le problème que je rencontre sur le node esclave du cluster ou se déploie le conteneur, la résolution de l'adresse du scheduler RM ne se fait pas correctement au sein
    du conteneur, et il tente de s'y connecter en 0.0.0.0:8030 au lieu de l'adresse monipmaster:8030, résultat il ne peut pas s'y connecter, la tâche se bloque
    dessus en retrying et seul un long timeout peut éventuellement se déclencher pour terminer la tache. alors que sur master je ne recontre pas ce problème.

    je cherche à identifier d'ou cela vient, visiblement il ne tient pas compte du resourcemananger.hostname défini dans le fichier yarn-site.xml qui est le meme sur tous mes serveurs
    ça c'est gênant pour la stabilité d'exécution.

    y a énormément de boulot avant de faire le tour, et j'ai pas commencé la prise de connaissance de l'écosystème (hbase,hive,mahoot)

    il n'arrive pas résoudre l'adresse du scheduller, alors qu'il le fait pour toutes les autres qui sont définies, ça sent le bug quelque part.

    <configuration>
    <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>stargate</value>
    </property>
    <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>${yarn.resourcemanager.hostname}:8030</value>
    </property>

    but in container lauch (slave node) it fail on retrying connection and wait until it get, that mean never and it take long time for timeout

    2015-04-08 12:23:19,333 INFO [IPC Server Responder] org.apache.hadoop.ipc.Server: IPC Server Responder: starting
    2015-04-08 12:23:19,333 INFO [IPC Server listener on 34611] org.apache.hadoop.ipc.Server: IPC Server listener on 34611: starting
    2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: nodeBlacklistingEnabled:true
    2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: maxTaskFailuresPerNode is 3
    2015-04-08 12:23:19,380 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: blacklistDisablePercent is 33
    2015-04-08 12:23:19,542 INFO [main] org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8030
    2015-04-08 12:23:20,692 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8030. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

  5. #5
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Le mot de la fin, mon cluster travaille parfaitement sur le master comme sur les esclave

    Comme je suspectais oozie 4.0.1, pour résoudre mon problème, j'ai du installer la version oozie 4.1.0 mais pour cela il faut recompiler le project avec la version hadoop correspondant

    Oozie ne connait que la version hadoop 2.3.0 alors que je suis en 2.6.0, oozie compile par défaut avec la version hadoop 1.1.1 et ca provoque des erreurs
    d'execution dans hadoop 2 avec des nosuchfieldexception sur jobcontrol

    j'ai changé dans le pom du projet
    la version hadoop utilisé 1.1.1 => 2.3.0

    pour des raisons inconnues, j'ai du installé maven 3.2.1 au lieu d'utiliser maven 2.2.1 sinon il fail en oozie-hadoop duplicate in reactor

    après j'ai installé redemarre, et je n'ai plus de problème, je peux lancer 10 fois mes taches sur mon cluster, je vois les map reduce s'executer
    sur les nodes.

    j'ai augmenté la mémoire de mon serveur master de 8GB à 24 GB ram, ce qui fait que je peux augmenter la taille de mes conteneurs

    hduser@stargate:~$ python /home/hduser/yarn-util.py -c 4 -m 12 -d 3 -k False
    Using cores=4 memory=12GB disks=3 hbase=False
    Profile: cores=4 memory=11264MB reserved=1GB usableMem=11GB disks=3
    Num Container=6
    Container Ram=1536MB
    Used Ram=9GB
    Unused Ram=1GB
    yarn.scheduler.minimum-allocation-mb=1536
    yarn.scheduler.maximum-allocation-mb=9216
    yarn.nodemanager.resource.memory-mb=9216
    mapreduce.map.memory.mb=1536
    mapreduce.map.java.opts=-Xmx1228m
    mapreduce.reduce.memory.mb=3072
    mapreduce.reduce.java.opts=-Xmx2457m
    yarn.app.mapreduce.am.resource.mb=3072
    yarn.app.mapreduce.am.command-opts=-Xmx2457m
    mapreduce.task.io.sort.mb=614

    Je suis content, maintenant je peux commencer à jouer avec l'ecosystem hadoop (hive,hbase,pig,mahoot,etc...)

    Je reviendrai pour de nouvelles aventures avec mon bigdata perso.

    A+

  6. #6
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    bon comme j'ai un beau cluster qui marche, je passe à l'ecosysteme hadoop

    pig ca marche
    map reduce ca marche

    J'ai installé hbase, aucun problème de rencontrer, j'accede au serveur, je peux creer des table, faire des query, je reviendrais dessus pour jouer plus tard, c'est en place

    J'ai installé hive, paf mauvaise version, ca plante, hadoop 2.6.0 a besoin de hive 0.14, c'est installé et ca marche

    Je suis parti à l'assaut de la deuxième partie de hive, le module hcatalog (metastore) qui ressemble à un data memory grid. faut que je regarde de plus près ce que ca fait.

    Remarque, il faut faire très attention à la version que support la version hadoop 2.6.0, en plus de recompiler des projets de l'ecosystème qui supporte en interne des version
    antérieure.

    https://martin.atlassian.net/wiki/pa...ageId=23494686

    hmmm, miam miam, ils doivent s'amuser en production et il doivent pas s'amuser à changer de version souvent.

    hadoop est un beau petit cauchemar d'intégration et de migration.

  7. #7
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    pour faire suite, j'ai installé hcatalog et j'ai connecte mysql en persistence aud lieu derby, ca marche, je peux utilser le databrowser sur le metastore db

    je suis passé à sqoop 1 & 2, pour l'import export db entre base et hdfs

    sqoop 1 v1.4.5 ca marchote, je communique avec la base, mais je n'ai pas réussi à le faire detecter par la gui hue

    sqoop 2, dans le sqoop.propertie, j'ai des config exemples pour derby, postgres, pas pour mysql qui est aussi supporter

    j'ai un problème de conf , pour url et driver, c'est facile, mais il y a conf pour le provider et le handler, la j'ai pas d'info sur mysql.
    ca correpons à une implementation sqoop, j'ai fait pas mal d'essai je plante toujours sur le Handler au deploiement
    en class not found, faut que je fasse des recherche dans le code du projet sqoop

    org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.jdbcMysq.jdbcMysqlRepositoryHandler

    # JDBC repository provider configuration

    # sqoop implementation
    org.apache.sqoop.repository.provider=org.apache.sqoop.repository.JdbcRepositoryProvider
    org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.derby.DerbyRepositoryHandler

    #derby
    org.apache.sqoop.repository.jdbc.url=jdbc:derby:/var/lib/sqoop2/repository/db;create=true
    org.apache.sqoop.repository.jdbc.driver=org.apache.derby.jdbc.EmbeddedDriver
    org.apache.sqoop.repository.jdbc.user=sa
    org.apache.sqoop.repository.jdbc.password=bidon

    avoir un exemple de conf sqoop.propertie avec mysql serait le pied, mais c'est introuvable. ce qui fait que je ne
    peux démarrer le service sqoop2, mais il semblerai qu'on peut le faire

  8. #8
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    suite

    pour sqoop2 1.99.5 d'après les source du repo git

    Après un regard rapide,

    il ne supporterait que postgres et derby, par encore mysql. du moins pas au niveau du sqoop.properties, vue
    que le service l'utlise lors du déploiement des qu'on met autre chose, il est normal qu'il plante.

    je vais devoir me rabattre sur sqoop1 ou utilisez derby dans sqoop2. ca fait pas trop mes affaires, je vais encore
    farfouiiller dans le code de sqoop.

  9. #9
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    en attendant de régler mon problème de sqoop,

    j'ai installé mahout pour les algo decisionnel, aucun soucis, ça tourne tout seul sur tous les noeuds, j'en reste baba, jusqu'à présent, chaque brique a eu son lot de difficulté,
    seul bemol, la gui hue n'a pas d'option pour interagir en direct. on va pas se plaindre,

    j'ai commencé spark, d'après ce que j'ai compris, un moteur composé d'api utilisable en scala,java,pytho pour traiter les données en mémoire.
    problème je dois utiliser un sous projet jobserver pour permettre l'utilisation d'un service rest par la gui hue,
    mais il faut compiler et configurer selon la version hadoop a faire, pour le prochain week end.

  10. #10
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    bon, j'ai avancé sur sqoop2

    je suis passé à postgresql, a défaut d'avoir mieux, je suis obligé de regarder dans le code pour savoir comment il a défini ses paramètres
    de connexion dans le sqooop2.properties.

    # Repository provider
    org.apache.sqoop.repository.provider=org.apache.sqoop.repository.JdbcRepositoryProvider

    # Repository upgrade
    # If set to true, it will not upgrade the sqoop respository schema, by default it will iniate the upgrade on server start-up
    org.apache.sqoop.repository.schema.immutable=false

    # JDBC repository provider configuration
    org.apache.sqoop.repository.jdbc.handler=org.apache.sqoop.repository.postgresql.PostgresqlRepositoryHandler
    org.apache.sqoop.repository.jdbc.transaction.isolation=READ_COMMITTED
    org.apache.sqoop.repository.jdbc.maximum.connections=10
    org.apache.sqoop.repository.jdbc.url=jdbc:postgresql://stargate:5432/sqoopdb
    org.apache.sqoop.repository.jdbc.driver=org.postgresql.Driver
    org.apache.sqoop.repository.jdbc.user=hduser
    org.apache.sqoop.repository.jdbc.password=


    il a apprécié, il a commencé se déployer, mais j'ai rencontré un problème de compatibilité de la version de jar httpclient 4.1.2 de sqoop2 et de http client 4.2.5 de hadoop

    java.lang.NoSuchMethodError: org.apache.http.client.utils.URLEncodedUtils.parse(Ljava/lang/String;Ljava/nio/charset/CharsetLjava/util/List;
    org.apache.hadoop.security.token.delegation.web.ServletUtils.getParameter(ServletUtils.java:48)
    org.apache.hadoop.security.token.delegation.web.DelegationTokenAuthenticationHandler.managementOperation(DelegationTokenAuthenticationHandler.java:170)
    org.apache.hadoop.security.authentication.server.AuthenticationFilter.doFilter(AuthenticationFilter.java:502)

    J'ai copié la version http client d'hadoop dans sqoop2 pour voir, il a bien démarré, je peux exécuter des requêtes rest dessus et il répond, c'est déjà pas mal.
    le sqoop2 client fonctionne bien en mode ligne de commande.

    Par contre coté gui hue, ca ne veut toujours pas causer avec sqoop2. mais ca progresse, j'ai essayé de configurer hue 3.6 pour les les DB query, sur mysql, mais l'option semblait inactive, j'ai installé hue 3.7.1 j'ai du recompiler, pouf, après déploiement, j'ai eu mes serveurs mysql/postgres visible dans dbquery, mais j'ai perdu la communication avec le service thrift 1 de hbase, que j'ai remis à niveau à son tour.

    Mais côté sqoop2 malgré la nouvelle version de la gui, ca veut toujours pas. faut que je cherche pourquoi. la bidouille que j'ai fait avec sqoop2, ne suffit peut être pas.

    spark, c'est en suspend, le week end prochain.

    En passant j'ai regardé les sandbox de hadoop 1.3 & 2.2 sous virtualbox, sympa, mais on est vite limité et ca rame, j'ai pourtant une machine puissante, mais le déploiement automatique des services
    avec la gestion ambari m'intéresse, y a des trucs à piocher dans la conf.

  11. #11
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    la réponse, la GUi hue de cloudera ne supporte que jusqu'à la version 1.99.3 de sqoop2, les versions 1.99.4 et 1.99.5 semblent incompatible,
    pour cause, ils ont pas mal changer de chose dans la 1.99.5, hue vérifie la version de sqoop2 via un service rest.

    je peux maintenant accéder au service sqoop2 dans hue 3.7.1, la contrainte je suis obligé de configurer derby dans le sqoop.propertie
    mais je peux utiliser dans hue l'import / export du connecteur generique pour le mysql vers un fichier sur hdfs ou hdfs fichier vers mysql.

    l'autre solution aurait été d'utiliser sqoop1 1.4.5 et faire l'appel dans la descripteur de job du workflow.

    il me reste plus qu'un problème de permission à régler pour la création du fichier sur l'hdfs entre hue et hadoop.

  12. #12
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Me revoila après une petite pause, vu le gros morceau que je devais me faire, spark
    j'ai attendu d'être en congé.

    maintenant que j'ai réglé mes problèmes sqoop 1 & 2, j'ai mainteant les deux, qui m'a obligé à reinstallé une nouvelle version de la gui hue de cloudera sur un hadoop apache,
    tout ca bien fait à la main, sans ambarri ou cloudera manager.

    je peux passer à la brique suivante spark qui est une alternative au map reduce hadoop, qui est beaucoup plus rapide dans certains cas d'utilisation,

    Pour comprendre hive (sql like), pig s'execute dans un contexte de workflow qui appelle le map reduce de chaque noeud et il faut attendre le résultat du traitement des tâches exécutées sur les noeuds,
    impala (sql like) et spark s'exécute directement sur le cluster en évitant le map reduce, cela fourni un résultat 3 fois plus rapidement.

    je fais part de mon retour d'expérience.

    j 'ai installé spark et j'ai configuré sans problème, mis a part l'installation du langage scala, encore un truc à voir,
    par contre pour l'utiliser dans la gui, j'ai besoin du sous projet appele job sever spark pour fournir le service rest.

    j'ai récupéré le sous projet, le configurer, compiler et déployer la version dans un répertoire de destination, après on peut démarrer le service rest
    et il est devenu accessible à partir de la gui. je suis déployé en multi node sur mon cluster.

    j'ai pu executer un job exemple sans problème. il dispose de son propre scheduler accessible sur le jobserver de spark via son url.

    J'en saurais plus quand je passerai à la programmation de micro appli en juillet, mon objectif étant d'avoir un eco systeme
    operationel et configurer. j'ai configuré quasiment toutes les briques accessible par hue, il me reste impala.

    j'ai commandé mon second rack avec 2 cm itx, j'aurai un total de 5 datanode, un namenode master, un secondary name node avec
    16GB ram par server, ce qui me laisse une config de 6 container executable, suffisant pour jouer au flipper avec mon cluster.

    Il reste un très long chemin, cela représente bien un an ou eux de travail personnel, pour tout survoler
    mais je pense qu'en septembre j'aurai un bon recul sur hadoop et de son eco systeme sur son utilisation et
    sa configuration.

    L'intégration d'hadoop et de son ecosysteme est un travail titanesque, j'aurais bientôt une dizaine d'applications,
    plus j'en ajoute plus c'est lourd à maintenir, surtout si je monte en version d'hadoop car je dois m'assurer que les autres briques fonctionnent
    et reste compatible. si je suis contraint de le faire, le point positif, c'est une bonne cure de rappel en terme configuration.

    je reste en hadoop 2.6.0, c'est une version qui est stable, hadoop .2.7 me semble trop jeune et immature pour l'instant, je préfère attendre plutôt
    de risquer des incompatibilités partout surtout avec oozie, qui est le plus lourd à configurer et a déployer.

    Maintenant que spark & job sever fonctionne, il me reste plus qu'impala à installer (faut que je regarde ce que c'est), toutes les options seront accessibles dans la gui hue.
    il me restera 3 ou 4 briques à regarder, genre ganglia pour le monitoring et d'autre brique optionnelle strom, flume,tez, etc....

    j'ai installé aussi phoenix, il permet la connection jdbc avec hbase par un script de ligne de commande en python ou par l'utilisation par squirel 3.6, cela oblige à installer les jars phoenix server
    dans hbase/lib et phoenix-client dans squirrel/lib, petit mais ca marche pas mal, pas de problème, j'aime bien, ca reste un sql like limité.

    après j'aurai terminé mon sujet, et je passerai à un nouveau comme l'utilisation des briques de l'ecosysteme avec des micro applications.

  13. #13
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    installation de kafka et de storm,

    kafka, ben, si on connait jms, kafka y ressemble beaucoup, c'est un mécanisme de message basé sur le consumer/producer, qui intègre le système
    hadoop, configuration/installation facile. il s'appui sur zookeeper.

    storm - developer part twitter, il est relativement simple à configurer et à installer, déploement en multinode.

    D'après ce que j'ai compris c'est un langage pour faire l'analytique en temps réel avec son scheduler pour gérer les job,
    yahoo et hortonworks travaillent dessus pour enrichir ses fonctionnalités.

    La différence réside dans la façon de traiter les données, spark est orienté batch processing, storm est orienté stream processing
    dans les deux cas, ils font du micro batching, spark peut travailler aussi en streaming,

    Spark fonctionne en alternatif du mécanisme map reduce en beaucoup plus rapide sauf qu'il utilise beaucoup de mémoire(faut bien passer à la caisse quelque part),
    Storm répond à des problématique de temps réel et utilise des flux.

    Il y a une différence essentielle entre storm et spark.

    Spark effectue des calculs de données en parallèle (http://en.wikipedia.org/wiki/Data_parallelism).

    Storm effectue les calculs des tâches parallèles (http://en.wikipedia.org/wiki/Task_parallelism).

    lien interessant, a prendre considération selon les besoins
    http://xinhstechblog.blogspot.fr/201...e-by-side.html

    bon, reste à installer Flume, Tez, Slider, Falcon

  14. #14
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    bon, je me suis fait un petit dernier, j'ain installé TEZ, pour comprendre, c'est la réponse pour améliorer les temps traitements de hive et de pig
    face à spark, chacun défend sa crèmerie.

    ca bataille entre les deux acteurs, tez supporté par hortonworks et spark supporté par cloudera, moi je prends tout,

    https://www.xplenty.com/blog/2015/01...ez-comparison/

    voila le résultat, mais j'ai du mal a voir si c'est effectivement plus rapide avec tez qu'avec l'ancien moteur, au moins ca me permet de voir que ca marche
    il faut regarder les bench

    hadoop jar ./tez-dist/target/tez-0.5.3/tez-examples-0.5.3.jar orderedwordcount /tests/tez-examples/in /tests/tez-examples/out

    SLF4J: Class path contains multiple SLF4J bindings.
    SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/tez-0.5.3-incubating/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
    15/05/12 21:28:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    hduser@stargate:~/apache-tez-0.5.3-src$ hadoop jar ./tez-dist/target/tez-0.5.3/tez-examples-0.5.3.jar orderedwordcount /tests/tez-examples/in /tests/tez-examples/out
    Running OrderedWordCount
    SLF4J: Class path contains multiple SLF4J bindings.
    SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/usr/local/hadoop-2.6.0/tez-0.5.3-incubating/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
    15/05/12 21:28:42 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    15/05/12 21:28:42 INFO client.TezClient: Tez Client Version: [ component=tez-api, version=0.5.3, revision=${buildNumber}, SCM-URL=scm:git:https://git-wip-us.apache.org/repos/asf/tez.git, buildTime=20150512-1933 ]
    15/05/12 21:28:42 INFO client.RMProxy: Connecting to ResourceManager at stargate/192.168.0.11:8032
    15/05/12 21:28:43 INFO client.TezClient: Submitting DAG application with id: application_1431457599870_0012
    15/05/12 21:28:43 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS
    15/05/12 21:28:43 INFO client.TezClientUtils: Using tez.lib.uris value from configuration: hdfs://192.168.0.11:9000/apps/tez-0.5.3-incubating,hdfs://192.168.0.11:9000/apps/tez-0.5.3-incubating/lib/
    15/05/12 21:28:43 INFO client.TezClient: Tez system stage directory hdfs://192.168.0.11:9000/tmp/hduser/tez/staging/.tez/application_1431457599870_0012 doesn't exist and is created
    15/05/12 21:28:44 INFO client.TezClient: Submitting DAG to YARN, applicationId=application_1431457599870_0012, dagName=OrderedWordCount
    15/05/12 21:28:44 INFO impl.YarnClientImpl: Submitted application application_1431457599870_0012
    15/05/12 21:28:44 INFO client.TezClient: The url to track the Tez AM: http://stargate:8088/proxy/applicati...57599870_0012/
    15/05/12 21:28:44 INFO client.RMProxy: Connecting to ResourceManager at stargate/192.168.0.11:8032
    15/05/12 21:28:44 INFO client.DAGClientImpl: Waiting for DAG to start running
    15/05/12 21:28:52 INFO client.DAGClientImpl: DAG initialized: CurrentState=Running
    15/05/12 21:28:53 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:53 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 0% TotalTasks: -1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:53 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:54 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 0% TotalTasks: 2 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: DAG: State: RUNNING Progress: 50% TotalTasks: 2 Succeeded: 1 Running: 1 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:28:59 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 0% TotalTasks: 1 Succeeded: 0 Running: 1 Failed: 0 Killed: 0
    15/05/12 21:29:00 INFO client.DAGClientImpl: DAG: State: SUCCEEDED Progress: 100% TotalTasks: 2 Succeeded: 2 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Tokenizer Progress: 100% TotalTasks: 0 Succeeded: 0 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Summation Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:29:00 INFO client.DAGClientImpl: VertexStatus: VertexName: Sorter Progress: 100% TotalTasks: 1 Succeeded: 1 Running: 0 Failed: 0 Killed: 0
    15/05/12 21:29:00 INFO client.DAGClientImpl: DAG completed. FinalState=SUCCEEDED

    Pour impala, il serait propriétaire, il est présent dans la distribution de cloudera, j'ai pas vu de version apache, il semble inclut aussi dans la distribution mapr,
    mais pas dans hortonworks, malheureusement c'est effectivement beaucoup plus rapide que hive, tout dépend à quelle échelle on travaille sur la datamasse qu'on
    souhaite traiter.

  15. #15
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Suite,

    installation de Flume, sympa, ca collecte les flux stdin/stoud/... via un agent venant de log ou de fichier pour les stocker ailleurs,
    dans un hdfs, netcat, tail, etc. via les channels, c'est simple à installer.

    installation et configuration accumulo, c'est un équivalent de hbase qui sont tous deux une implémentation de big table de google (nosql db)

    il sont quasiment identique,

    hbase a plus de support et il est mieux intégré dans l'ecosystem hadoop,
    accumulo dispose d'un niveau sécurité et de contrôle d'accès jusqu'au niveau du champ qu'hbase n'a pas,

    Le besoin est selon l'utilisation qu'on souhaite en faire. Pas de problème, même niveau de config que hbase/zookeeper.

    Falcon - d'après ce que j'ai compris, il est fait normalement pour de la replication ou de l'acheminement de données, faut que je compile le projet pour déployer,
    et ca plantouille en je sais pas quoi dans maven, duplicated in reactor. il a du mal. ce projet m'a l'air aussi bizarre qu'oozie (scheduler worflow). en plus
    il a besoin d'oozie pour compiler. je passe à slider en attendant de voir ca.

  16. #16
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    suite à mon interrogation de TEZ, je m'étonnais du manque de performance sur les job hive & pig, normalement ils auraient du être nettement plus performant avec TEZ

    Après avoir regarder la log, c'est normal, la gui hue / sheduler oozie utilise toujours le map reduce, seul le program java utilise l'implementation TEZ,
    faudra que je creuse, y a peut être une limitation quelque part, je pense que c'est oozie, en tout il semble être capable d'utiliser les deux mode.
    TEZ et Map Reduce

    comme le montre la log du scheduler , on constate l'executionMAPREDUCE pour les job pig & hive et de TEZ pour le jar example OrderedWordCount de TEZ

    application_1431457599870_0014 hduser oozie:launcher:T=pig:W=pig-app-hue-script:A=pig:ID=0000000-150512122111409-oozie-hdus-W MAPREDUCE default Tue, 12 May 2015 21:07:14 GMT Tue, 12 May 2015 21:07:34 GMT FINISHED SUCCEEDED
    History
    application_1431457599870_0013 hduser SELECT sample_07.description, sample_…1000(Stage-1) MAPREDUCE default Tue, 12 May 2015 20:05:17 GMT Tue, 12 May 2015 20:05:59 GMT FINISHED SUCCEEDED
    History
    application_1431457599870_0012 hduser OrderedWordCount TEZ default Tue, 12 May 2015 19:28:44 GMT Tue, 12 May 2015 19:29:05 GMT FINISHED SUCCEEDED
    History
    application_1431457599870_0011 hduser OrderedWordCount TEZ default Tue, 12 May 2015 19:27:46 GMT Tue, 12 May 2015 19:28:02 GMT FINISHED SUCCEEDED


    J'ai presque fini mon ecosystème, il me reste slider, qui est en cours, il faut utiliser maven 3 sinon ca plante, faut compiler le projet c'est un docker pour deployer facilement les application avec des descripteur deploiement au sein du cluster hadoop.

    Reste le cas epineux de falcon, mécanisme de replication, il utilise en sous main oozie et activemq. je ne sais pas si cela s'avère utile de l'installer. je vais voir.

    Les outils de security tel que kerberos,sentry, knox.. ou de monitoring, ca sera pour autre sujet.

  17. #17
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    un peu lourd slider, pas beaucoup d'info, j'ai du construire un exemple, c'est ce qui m'a pris le plus de temps, mais ca semble marcher. ma version python est 2.7 et il a besoin une 2.6
    des erreurs lors du destroy de façon aléatoire. bizarre, il y a une petite imcompatibilité python mais l'instance est détruite.

    il faut écrire un resources.json et appConfig.json pour le descripteur de deploiement,
    respecter la hierarchie des package dans le zip qui contient l'appli à deployer

    après on peut installer l'appli, on peut creer une instance de cet application, démarrer l'instance,stopper l'instance, détruire l'instance

    c'est intéressant car l'appli est installer sur hdfs. il faut prendre garde, l'application est déployer sous le compte utilisateur dans la hdfs.

    installation du package applicatif à deployer sur hdfs, avec option overwrite sur l'ancienne version (-replacepkg)

    ./bin/slider install-package --name MEMCACHED --package memcached.zip --replacepkg

    2015-05-14 18:38:39,547 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-14 18:38:39,703 [main] INFO client.SliderClient - Installing package file:/usr/local/slider-0.61.0-incubating/testdeployment/memcached.zip at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip and overwrite is false.
    2015-05-14 18:38:39,723 [main] ERROR main.ServiceLauncher - Pkg exists at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip. Use --replacepkg to overwrite.
    2015-05-14 18:38:39,725 [main] INFO util.ExitUtil - Exiting with status 40
    hduser@stargate:/usr/local/slider/testdeployment$ history | grep isntall^C
    hduser@stargate:/usr/local/slider/testdeployment$ ./../bin/slider install-package --name MEMCACHED --package memcached.zip --replacepkg
    2015-05-14 18:39:03,078 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-14 18:39:03,233 [main] INFO client.SliderClient - Installing package file:/usr/local/slider-0.61.0-incubating/testdeployment/memcached.zip at hdfs://stargate:9000/user/hduser/.slider/package/MEMCACHED/memcached.zip and overwrite is true.
    2015-05-14 18:39:03,513 [main] INFO util.ExitUtil - Exiting with status 0
    hduser@stargate:/usr/local/slider/testdeployment$ cd ..


    creation instance application memcached

    hduser@stargate:/usr/local/slider$ ./bin/slider create cl1 --template appConfig.json --resources resources.json

    hduser@stargate:/usr/local/slider2015-05-14 18:53:55,363 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-14 18:53:55,899 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:53:55,900 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:53:56,022 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
    2015-05-14 18:53:56,606 [main] INFO client.SliderClient - No credentials requested
    2015-05-14 18:53:56,702 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:53:56,707 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
    2015-05-14 18:53:56,763 [main] INFO launch.AbstractLauncher - Log include patterns:
    2015-05-14 18:53:56,763 [main] INFO launch.AbstractLauncher - Log exclude patterns:
    2015-05-14 18:53:57,198 [main] INFO slideram.SliderAMClientProvider - Loading all dependencies for AM.
    2015-05-14 18:53:57,198 [main] INFO tools.SliderUtils - Loading all dependencies from /usr/local/slider-0.61.0-incubating/lib
    2015-05-14 18:54:00,754 [main] INFO agent.AgentClientProvider - Automatically uploading the agent tarball at hdfs://stargate:9000/user/hduser/.slider/cluster/cl1/tmp/application_1431457599870_0015/agent
    2015-05-14 18:54:00,877 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:54:00,877 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:54:00,881 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
    2015-05-14 18:54:00,890 [main] INFO Configuration.deprecation - slider.registry.path is deprecated. Instead, use hadoop.registry.zk.root
    2015-05-14 18:54:00,893 [main] INFO launch.AppMasterLauncher - Submitting application to Resource Manager
    2015-05-14 18:54:00,954 [main] INFO impl.YarnClientImpl - Submitted application application_1431457599870_0015
    2015-05-14 18:54:00,956 [main] INFO util.ExitUtil - Exiting with status 0

    start application instance cl1

    /bin/slider start cl1

    2015-05-14 18:59:27,088 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-14 18:59:28,053 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:59:28,070 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
    2015-05-14 18:59:28,189 [main] INFO launch.AbstractLauncher - Log include patterns:
    2015-05-14 18:59:28,189 [main] INFO launch.AbstractLauncher - Log exclude patterns:
    2015-05-14 18:59:29,045 [main] INFO slideram.SliderAMClientProvider - Loading all dependencies for AM.
    2015-05-14 18:59:29,046 [main] INFO tools.SliderUtils - Loading all dependencies from /usr/local/slider-0.61.0-incubating/lib
    2015-05-14 18:59:32,909 [main] INFO agent.AgentClientProvider - Automatically uploading the agent tarball at hdfs://stargate:9000/user/hduser/.slider/cluster/cl1/tmp/application_1431457599870_0016/agent
    2015-05-14 18:59:33,008 [main] INFO agent.AgentClientProvider - Validating app definition .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:59:33,008 [main] INFO agent.AgentUtils - Reading metainfo at .slider/package/MEMCACHED/memcached.zip
    2015-05-14 18:59:33,013 [main] INFO tools.SliderUtils - Reading metainfo.xml of size 2029
    2015-05-14 18:59:33,025 [main] INFO Configuration.deprecation - slider.registry.path is deprecated. Instead, use hadoop.registry.zk.root
    2015-05-14 18:59:33,027 [main] INFO launch.AppMasterLauncher - Submitting application to Resource Manager
    2015-05-14 18:59:33,046 [main] INFO impl.YarnClientImpl - Submitted application application_1431457599870_0016
    2015-05-14 18:59:33,047 [main] INFO util.ExitUtil - Exiting with status 0

    stop application instance cl1

    ./bin/slider stop cl1
    2015-05-14 19:00:11,454 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-14 19:00:11,882 [main] INFO util.ExitUtil - Exiting with status 0

    ./bin/slider destory cl1

    on peut voir l'application sous l'instance cl1 déployer dans hadoop dans la liste

    http://x.x.x.x:8088/cluster

    application_1431457599870_0019 hduser cl1 org-apache-slider default Thu, 14 May 2015 17:23:05 GMT N/A ACCEPTED UNDEFINED UNASSIGNED

    detail application

    User: hduser
    Name: cl1
    Application Type: org-apache-slider
    Application Tags: version: 1.0.0,name: memcached,description: memcache is a network accessible key/value storage system, often used as a di...
    State: RUNNING
    FinalStatus: UNDEFINED
    Started: 14-mai-2015 19:23:05
    Elapsed: 2mins, 23sec
    Tracking URL: ApplicationMaster
    Diagnostics:

    bon, il me reste plus que falcon,

  18. #18
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Falcon

    il n'y a pas de tarball disponible, je suis obligé de compiler le projet et il n'est pas très petit

    mais quand je compile, les repositories de codehaus sont en train de fermer et ne sont plus accessible,

    résultat erreur 503 service indisponible

    je cherche une alternative, c'était mon dernier module, ça commence fort.


    INFO] ————————————————————————
    [INFO] BUILD FAILURE
    [INFO] ————————————————————————
    [INFO] Total time: 02:17 min
    [INFO] Finished at: 2015-05-15T13:26:01+01:00
    [INFO] Final Memory: 106M/529M
    [INFO] ————————————————————————
    [ERROR] Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.2:site (default) on project falcon-docs: SiteToolException: The site descriptor cannot be resolved from the repository: ArtifactResolutionException: Unable to locate site descriptor: Could not transfer artifact org.apache:apacheml:site_en:13 from/to Codehaus repository (http://repository.codehaus.org/): Failed to transfer file: http://repository.codehaus.org/org/a...13-site_en.xml. Return code is: 503 , ReasonPhrase:Service Temporarily Unavailable.
    [ERROR] org.apache:apacheml:13

    if i go on site

    https://www.codehaus.org

    ll Codehaus services will be terminated progressively until May 17th 2015

    If you have been directed here, then the service you are accessing may have been disabled already, or we are trying to get your attention by blacking out services early.

    fisheye.codehaus.org Service terminated
    dist.codehaus.org May 1 – temporary redirect to this page
    dist.codehaus.org May 5 onwards – HTTPS only
    repository.codehaus.org May 1 – temporary redirect to this page
    repository.codehaus.org May 5 onwards – HTTPS only
    bamboo-ci.codehaus.org May 1 – May 5, builds disabled
    bamboo-ci.codehaus.org May 6 onwards, offline

    La je sais pas comment je vais faire ca, je suis allé sur le site mirroir dont il parle, mais il n'y a pas le fichier qu'il cherche.

  19. #19
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Il me restait un truc un suspend sur slider, en effet pour une raison que je ne comprenais pas je plantais lors du destroy de l'instance applicative
    l'instance était bien détruire sur le hdfs, mais l'état restait application in use exit code 73, ce qui fait qu'on ne pouvait relancer une nouvelle instance.
    maintenant c'est réglé.

    c'est un probleme de port number pour zookeeper, j'avais mis 2180 au lieu de 2181, est cela avait pour effet de faire planter méchamment slider

    hduser@stargate:/usr/local/slider$ ./bin/slider destroy cl1
    2015-05-15 17:28:49,170 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-15 17:28:49,501 [main] INFO zk.BlockingZKWatcher - waiting for ZK event
    2015-05-15 17:28:49,505 [main-SendThread(stargate:2180)] WARN zookeeper.ClientCnxn - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
    Exception in thread Thread-2:
    Traceback (most recent call last):
    File "/usr/lib/python2.7/threading.py", line 810, in __bootstrap_inner
    self.run()
    File "/usr/lib/python2.7/threading.py", line 763, in run
    self._target(*self.args, **self._kwargs)
    File "/usr/local/slider-0.61.0-incubating/bin/slider.py", line 168, in print_output
    (line, done) = read(src, line)
    File "/usr/local/slider-0.61.0-incubating/bin/slider.py", line 146, in read
    o = c.decode('utf-8')
    File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
    UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 0: unexpected end of data

    après correctif du fichier configuration slider-client.xml, ca marche nettement mieux avec le bon port zookeeper

    hduser@stargate:/usr/local/slider$ ./bin/slider destroy cl1
    2015-05-15 17:53:33,772 [main] INFO client.RMProxy - Connecting to ResourceManager at stargate/192.168.0.11:8032
    2015-05-15 17:53:34,074 [main] INFO zk.BlockingZKWatcher - waiting for ZK event
    2015-05-15 17:53:34,183 [main-EventThread] INFO zk.BlockingZKWatcher - ZK binding callback received
    2015-05-15 17:53:35,484 [main] INFO client.SliderClient - Destroyed cluster cl1
    2015-05-15 17:53:35,487 [main] INFO util.ExitUtil - Exiting with status 0

  20. #20
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 183
    Points : 180
    Points
    180
    Par défaut
    Je ne peux pas installer Falcon, vu que les repo de codehaus sont arrêtés définitivement, de ce fait je ne peux pas compiler le projet selon la version hadoop/oozie
    de l'installation, j'ai ouvert un jira chez la falcon team.

    J'avais également ouvert un jira chez la slider team, d'un problème mineur de config, cela a révéler un gros bug potentiel dans leur module,
    ils sont obligés de corriger pour la prochaine version.

    J'évite solr, parce que cela ouvre un autre gros sujet, les crawler.
    La sécurité et le monitoring, supervision, plus tard
    La réplication, les sauvegardes incrémentale et les réparations du système, plus tard

    J'ai terminé l'installation d'hadoop et de son écosystème. le tout manuellement sans l'aide d'installateur, ca m'a permis de voir directement les problèmes de chacun des modules
    et j'ai beaucoup appris.

    1 map reduce
    2 pig
    3 hive
    4 storm
    5 spark
    6 sqoop 1&2
    7 flume
    8 kafka
    9 slider
    10 hbase
    11 accumulo
    12 tez
    13 mahout
    14 phoenix
    15 zookeeper
    16 hue

    cela me fait 16 composants, de quoi m'occuper, pendant les 3 prochains mois.

    Beaucoup de questions et peu de réponses, les forums sur hadoop sont bien déserts,

    Je peux passer maintenant au sujet suivant, après le big data, je vais travailler sur le big analytic,
    je vais utiliser et programmer l'écosystème que je viens d'installer.

    A voir si je repars pour un nouveau fil avec plein d'aventure de programmatique en pig,mapreduce, mahout, hive, spark,storm,hbase,etc..,...
    va falloir je trouve quelques applications concrète à faire qui justifie le big data, surtout autre chose que du word count à toutes les sauces.
    je commencerai par le trio d'enfer de la team pig & hive & map reduce.

    En tout cas, après ces quelques apéritifs, j'ai bien envie de commencer les entrées. le chemin est encore long.

    Peut être à une prochaine fois.

    JP

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 16
    Dernier message: 24/01/2006, 20h31
  2. Installation et configuration de postfix
    Par ggnore dans le forum Réseau
    Réponses: 3
    Dernier message: 05/10/2004, 14h17
  3. [Debutant] Installation et Configuration Interbase
    Par goupil_32x dans le forum InterBase
    Réponses: 11
    Dernier message: 12/11/2003, 22h51
  4. Installation et configuration d'un routeur FlowPoint SSR255
    Par arnaud_verlaine dans le forum Développement
    Réponses: 3
    Dernier message: 11/08/2003, 13h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo