IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Hadoop Cloudera Plantage


Sujet :

Hadoop & co

  1. #1
    Membre habitué Avatar de donnadieujulien
    Développeur informatique
    Inscrit en
    Avril 2008
    Messages
    433
    Détails du profil
    Informations personnelles :
    Âge : 39

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Avril 2008
    Messages : 433
    Points : 191
    Points
    191
    Par défaut
    Bonjour,

    je teste hadoop depuis plusieurs semaine via cloudera.

    J'ai déjà été surpris à l'installation de devoir créer un user à la mano dans la machine (le superuser pour beeswax par exemple).

    Ensuite, j'ai implémenté une API avec thrift pour insérer des données sur hbase.

    Jusque la aucun soucis mais voila.
    Au bout d'un certain temps ou j'insère des données (massivement :-)), j'ai des régions en pending open, des warnings sur des block manquants au niveau hdfs.

    Au final, sur l'interface de gestion cloudera, je vois une mauvaise intégrité sur hbase...

    Et au bout d'un moment, tout vole, impossible d'insérer des données, de faire des "select".

    J'ai tenté des réparations avec fsck et autre outils, j'ai fini par arriver à retrouver l'intégrité en perdant pas mal de données (j'ai aller dans la table meta par exemple pour supprimer à la main).

    Je remarque que les heap size sont quasiment à 100% également.

    quand j'essaye de lancer un count via l'interface hbase, ca fini toujours par planter sur des regions qui sont pending.

    Je ne peux pas croire que le système hadoop soit autant instable, donc la seule explication c'est que je ne sais pas bien l'utiliser.

    Est ce normal d'avoir des régions en pending open?
    Des missings blocks??
    Soit c'est pas normal et j'ai mal paramétré quelque chose, soit ca l'est et il faut faire des scripts de monitoring sur ces états pending par exemple ou autre, et lancer des cmd auto?

    Je précise que j'utilise deux serveurs, dont le principal est une bete (8 coeurs, 24 Go de ram, et l'autre un kimsufi.

    Merci d'avance pour votre aide!
    On ne peut créér ce qu'on ne peut imaginer...
    Tu sens la puissance du BIT?

  2. #2
    Candidat au Club
    Inscrit en
    Janvier 2013
    Messages
    2
    Détails du profil
    Informations forums :
    Inscription : Janvier 2013
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Citation Envoyé par donnadieujulien Voir le message
    ...
    Je précise que j'utilise deux serveurs, dont le principal est une bete (8 coeurs, 24 Go de ram, et l'autre un kimsufi.
    Bon, hbase est une base de données distribuée. Elle s'appuie sur hdfs.
    Par distribué, cela sous-entend quelques datanodes (3?) et un namenode ... En dessous, effectivement, tu n'as aucune garantie que ta donnée ne va pas être perdue. 1 seule réplique pour chaque block, donc une fois perdu, c'est à jamais.
    Cela n'explique pas comment tu perds tes blocks (tu dois avoir un sérieux problème quelque part ...), mais bon tu es loin de l'archi la plus standard.

    Pour ce qui est de la ram, c'est probablement lié à hbase qui est très gourmand. Tu as plusieurs datanodes? ils sont installés sur quelle machine? Tu as plusieurs datanodes par coeur?
    Ta machine avec 3Go ram / coeur me semble un peu déséquilibrée ... Mais souvent on s'intéresse plus au nombre de disque / coeur (disk bound).

    Bref, comment tu as fait ton install (tu as installé quoi sur quelle machine?), quelle version de cdh tu utilises?

    Sinon, si tu veux explorer par toi même, il y a plein de logs, qui devraient te permettre de comprendre comment tu "perds" des blocks ...

Discussions similaires

  1. cloudera distribution for hadoop CDH
    Par mapmip dans le forum NoSQL
    Réponses: 1
    Dernier message: 16/10/2013, 13h18
  2. Hadoop Cloudera Plantage
    Par donnadieujulien dans le forum NoSQL
    Réponses: 1
    Dernier message: 13/04/2013, 17h04
  3. Réponses: 7
    Dernier message: 20/08/2003, 10h33
  4. plantage a la deconnexion du client
    Par travail dans le forum 4D
    Réponses: 3
    Dernier message: 05/06/2003, 13h39
  5. [Kylix] Plantage IDE Kylix3/Mandrake 9.0
    Par OmicroN dans le forum EDI
    Réponses: 3
    Dernier message: 28/01/2003, 23h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo