IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Hive ne fonctionne pas mais hadoop oui


Sujet :

Hadoop & co

  1. #1
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 716
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 716
    Par défaut Hive ne fonctionne pas mais hadoop oui
    Bonsoir

    Je cherche a exécuter "hive" qui est sur le même serveur unix que hadoop , les commandes hadoop fonctionner
    J'ai un bash qui récupère avec succès via hadoop
    distcp -Dmapred.job.queue.name=BATCH "hdfs://aaa01.bbbb.toto.fr:1234/ZZZZ/JRE/REV_JRE_XLS_APN_ISS* /WORK/MAOS/MILES_INPUT/
    => Ok
    Mais quand je lance ensuite hive afin se faire un "show tables", cela ne correspond pas aux tables qui sont présente dans Hadoop ?
    Que me manque t'il dans ma configuration ou dans le lancement de hive sur le même serveur LINUX afin d'accéder aux bonnes "tables'" ??
    Comment faire pour que "hive" voit /WORK/MAOS/MILES_INPUT/ afin que mon SHOW TABLE fonctionne


    Merci

  2. #2
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Par défaut
    Bonjour,

    Ce comportement est normal dans le sens où l'utilitaire distcp (Distributed Copy) ne s'occupe que de la recopie de fichiers stockés dans l'HDFS, d'un cluster source à un cluster cible, et rien d'autre.

    Or une table Hive est bien constituée de fichiers de données stockés dans l'HDFS, mais aussi de métadonnées (nom de la table, nom des colonnes de la table et type de données, emplacement de la table, type de sérialisation utilisé, type de compression de données, etc, etc).

    Ces métadonnées des tables Hive sont stockées dans ce qu'on appelle le Metastore Hive, qui s'appuie sur une base relationnelle. Et distcp ne s'occupe pas de récupérer ces métadonnées.

    Pour cela, il y a plusieurs solutions possibles :

    1) utiliser les commandes EXPORT et IMPORT de Hive :
    https://cwiki.apache.org/confluence/...l+importexport


    2) Souvent, sur Hive, on utilise plutôt des tables externes que des tables managées. Du coup, après avoir copié les fichiers de données par distcp comme vous l'avez fait, sur le cluster source, on peut récupérer la commande DDL de création de table avec un SHOW CREATE TABLE, et repasser cette commande sur la base du cluster cible.

    En espérant vous avoir éclairé.

  3. #3
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 716
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 716
    Par défaut
    Bonjour

    Merci
    https://cloudera.ericlin.me/2014/05/...ive-instances/
    Cela veux dire que sur le Cluster "source" il faut que je puisse faire un EXPORT !

  4. #4
    Membre éprouvé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 716
    Détails du profil
    Informations personnelles :
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 716
    Par défaut
    Ok
    Maintenant avec Intellij Ultimate il faut que j'arrive a faire un remote debugging sachant que le script est en Python et qu'il y a au milieu une authentification Kerberos
    https://www.jetbrains.com/help/idea/...tml#connection pour l'instant cela ne fonctionne pas

Discussions similaires

  1. Apache HADOOP ET HIVE
    Par martial.kiba dans le forum Hadoop & co
    Réponses: 0
    Dernier message: 25/08/2020, 21h56
  2. Hadoop ecosysteme - Hive - hbase - Pig - Map reduce
    Par bordi dans le forum Hadoop & co
    Réponses: 20
    Dernier message: 22/06/2015, 22h52
  3. Aide fonction Hadoop Hive
    Par kent69003 dans le forum Big Data
    Réponses: 2
    Dernier message: 21/05/2015, 13h27
  4. Pilote ODBC cognos 8.4 BI et Big Data Hive (Hadoop)
    Par matouk dans le forum Cognos
    Réponses: 1
    Dernier message: 09/10/2013, 11h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo