Bonjour,
je teste hadoop depuis plusieurs semaine via cloudera.
J'ai déjà été surpris à l'installation de devoir créer un user à la mano dans la machine (le superuser pour beeswax par exemple).
Ensuite, j'ai implémenté une API avec thrift pour insérer des données sur hbase.
Jusque la aucun soucis mais voila.
Au bout d'un certain temps ou j'insère des données (massivement :-)), j'ai des régions en pending open, des warnings sur des block manquants au niveau hdfs.
Au final, sur l'interface de gestion cloudera, je vois une mauvaise intégrité sur hbase...
Et au bout d'un moment, tout vole, impossible d'insérer des données, de faire des "select".
J'ai tenté des réparations avec fsck et autre outils, j'ai fini par arriver à retrouver l'intégrité en perdant pas mal de données (j'ai aller dans la table meta par exemple pour supprimer à la main).
Je remarque que les heap size sont quasiment à 100% également.
quand j'essaye de lancer un count via l'interface hbase, ca fini toujours par planter sur des regions qui sont pending.
Je ne peux pas croire que le système hadoop soit autant instable, donc la seule explication c'est que je ne sais pas bien l'utiliser.
Est ce normal d'avoir des régions en pending open?
Des missings blocks??
Soit c'est pas normal et j'ai mal paramétré quelque chose, soit ca l'est et il faut faire des scripts de monitoring sur ces états pending par exemple ou autre, et lancer des cmd auto?
Je précise que j'utilise deux serveurs, dont le principal est une bete (8 coeurs, 24 Go de ram, et l'autre un kimsufi.
Merci d'avance pour votre aide!
Partager