Upload et browse dans Apache Hadoop

**WipEout37** · 22/04/2019, 13h43

Bonjour,

J'essaie de faire tourner Apache Hadoop sur Ubuntu (pas en virtuel) avec un seul nœud. Lorsque je clique sur browse et upload file, il me sort une erreur lié au webhfs ou un truc du genre (désolé je n'ai pas l'erreur sous la main car je suis retourné sur Windows). J'ajoute que j'ai installé Hadoop apache plusieurs fois avec des tutos différents sans résultat (toujours la même erreur…).

Est-ce normal ? ou qu'ai-je mal fait ?
Merci d'avance.

**rouardg** · 23/04/2019, 10h34

Bonjour,

Pour tenter de vous aider, je pense qu'il nous faudrait un peu plus de détails.

Ok, vous n'avez qu'un seul noeud. Par contre, comment avez-vous installé Apache Hadoop ? En téléchargeant la version depuis le site Apache Hadoop ?
Ou bien utilisez vous une distribution comme Cloudera ou Hortonworks ou MapR ?

Sur quelle version d'Hadoop travaillez-vous ?

Et pour finir, puisque vous n'avez qu'un noeud, avez-vous installé Hadoop en mode standalone ou en mode pseudo-distribué ?
Je rappelle que les 2 s'installent sur un seul noeud, et que la différence se situe en terme de nombre de JVM.

En mode standalone, tout Hadoop tourne dans une seule et unique JVM.

En mode pseudo-distribué, on a plusieurs JVM.

Pour finir, si vous avez suivi un tuto pour installer Hadoop, merci de nous communiquer si possible le lien.

**WipEout37** · 23/04/2019, 10h51

Bonjour,

Premièrement merci beaucoup pour votre réponse.
Je repasserai ce soir pour vous indiquer exactement l’erreur que j’ai et comment j’ai procédé.

Je peux déjà répondre à quelques questions.

J’ai téléchargé une version hadoop sur le site apache. J’ai suivi le Tuto associé. J’ai essayé des versions plus ou moins récentes d’hadoop. Je crois que je suis en pseudo distribué mais pas certain. Je dois réinstaller Linux et retester.

Le Tuto est celui-ci. Il y en a d’autres mais essayons déjà avec celui la ..

http://hadoop.apache.org/docs/stable...leCluster.html

J’ai réussi à le faire fonctionner avec java 11 sans soucis, à part le message d’erreur que j’ai évoqué dans mon précédent post.

En vous remerciant.

**rouardg** · 23/04/2019, 11h50

Ok, essayez de nous donner le maximum d'information, notamment l'erreur que vous avez au niveau WebHDFS.

En regardant le tuto, je vois qu'après l'installation d'Hadoop, ils vous font formater l'HDFS : bin/hdfs namenode -format
Puis ils vous font démarrer le Namenode et le Datanode : sbin/start-dfs.sh

Le Namnode dispose implicitement d'un UI (User Interface) qui est un serveur Web et qui est accessible par le port 50070 par défaut :

Browse the web interface for the NameNode; by default it is available at:

NameNode - http://localhost:50070/

J'ai l'impression que vous accédez bien à cette URL. Dans l'onglet "Utilities", il y a bien un Browser de répertoire. Moi cela me donne cette erreur depuis mon PC :

Nom : pb_Browse_HDFS.PNG
Affichages : 406
Taille : 21,0 Ko

Nom : pb_Browse_HDFS.PNG
Affichages : 406
Taille : 21,0 Ko

Dans mon cas c'est normal car le cluster Hadoop que j'utilise est Kerbérisé.

Parlons-nous bien de la même chose, le Namenode UI sur le port 50070 ? Si oui, il me faudrait le message d'erreur SVP, voir une copie d'écran si possible.

Merci

**WipEout37** · 23/04/2019, 11h56

Re bonjour,

Je vous remercie pour votre aide.
Nous parlons bien de la même interface (j’y accède via le port 9870, le numéro de port ayant changé). L’erreur que vous avez est ressemblante sans être tout à fait la même.

Je vous posterai la copie d’ecran ce soir.

Encore merci pour votre aide précieuse.

**rouardg** · 23/04/2019, 13h23

Au fait, très important : si vous voulez utiliser l'API REST WebHDFS pour pouvoir lire et écrire des données dans l'HDFS, il faut l'activer !

Aussi votre fichier de configuration hdfs-site.xml doit contenir :

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

Et pour info complémentaire, si un jour vous activez la haute-disponibilité au niveau de l'HDFS, faites attention car le protocole WebHDFS ne supporte pas la HA (High Availability).

A ce moment-là, il faut utiliser l'HttpFS. Encore une couche logicielle supplémentaire à configurer !

**WipEout37** · 23/04/2019, 14h03

Très bien c’est noté

je vais tester ce soir.

Merci infiniment

**WipEout37** · 23/04/2019, 20h29

Bonsoir,

Voici mes 2 scrennshots, le premier lorsque je fais browse et le deuxième lorsque j'essai d'uploader un fichier.

Nom : Capture d’écran de 2019-04-23 20-26-04.png
Affichages : 397
Taille : 112,0 Ko

Nom : Capture d’écran de 2019-04-23 20-26-04.png
Affichages : 397
Taille : 112,0 Ko

Nom : Capture d’écran de 2019-04-23 20-27-23.png
Affichages : 392
Taille : 110,6 Ko

Je vais rajouter maintenant votre ligne de code.

**WipEout37** · 23/04/2019, 20h32

malheureusement rajouter vos lignes de codes ne me permet pas de résoudre le problème pour le moment (j'ai collé les lignes et redémarré hadoop).

**rouardg** · 23/04/2019, 22h14

J'ai l'impression que votre cluster n'est pas totalement opérationnel.

Pouvez-vous faire une copie d'écran des 2 premiers onglets : Overview puis Datanodes

Merci

**WipEout37** · 24/04/2019, 06h55

Merci encore pour votre aide

J'ai relancé hadoop sans reformater en hdfs et quand je fais "JPS" j'ai le namemode et le datamode. En stoppant hadoop puis en formatant puis en relançant hadoop j'ai namemode, datamode et secondary namemode. Je trouve cela bizarre. Je pensais qu'il fallait formater qu'une seule fois ?

Sinon voici les images :

Nom : Capture d’écran de 2019-04-24 06-49-47.png
Affichages : 382
Taille : 219,3 Ko

Nom : Capture d’écran de 2019-04-24 06-49-47.png
Affichages : 382
Taille : 219,3 Ko

Nom : Capture d’écran de 2019-04-24 06-49-54.png
Affichages : 385
Taille : 196,6 Ko

Nom : Capture d’écran de 2019-04-24 06-50-01.png
Affichages : 380
Taille : 151,3 Ko

**rouardg** · 24/04/2019, 08h20

Bonjour,

Oui, un seul formatage suffit. Et je suis incapable de dire ce qui s'est passé.

Mais bon, d'après vos copies d'écran, votre cluster Hadoop est up et opérationnel.

Le seul point que j'ai relevé concerne le Namenode storage :

/tmp/hadoop-jujuf1/dfs/name

Pourquoi l'espace réservé aux futurs blocs HDFS est dans le /tmp ???

Sinon vous devriez pouvoir commencer à livrer des fichiers dans l'HDFS.

Avant d'utiliser le NN UI (NameNode User Interface), je vous invite à tester qq commandes basiques comme :

hdfs dfs -ls /
hdfs dfs -mkdir /myDirectory
hdfs dfs -put mon_fichier /myDirectory

**WipEout37** · 24/04/2019, 08h27

Pour l’emplacement dans tmp je ne sais pas ça a été fait par défaut. Je testerai vos commandes ce soir.

Quand vous dite «*mon fichier*» ce serait quoi comme genre de fichier ? N’importe quel type ? Ou un csv ?

Merci

**rouardg** · 24/04/2019, 10h41

Dans l'HDFS, on peut stocker n'importe quel type de fichier.

Mais un CSV serait bien pour la suite.

Car une fois la couche HDFS opérationnelle, on passe à MapReduce et surtout à Hive qui permet d'exécuter des requêtes SQL en les transformant en code MR (MR = MapReduce).

Et donc, un des exercices classiques sur Hive consiste d'abord à créer une table externe mappée sur votre fichier CSV.

Puis on crée une table interne calquée sur la table externe, à l'aide d'un CTAS (Create Table as Select).

Cette manipulation permet en fait d'avoir les mêmes données, mais dans un autre format (Hive adore le format ORC) et avec une compression de données (souvent du Snappy mais il y en a d'autres) pour réduire l'empreinte disque.

Car n'oubliez pas que Hadoop a été fait pour traiter des fichiers de très grandes tailles, et les stocker dans des blocs HDFS de 64 ou 128 Mo, ce qui nous change des blocs de 8 Ko gérés par des SGBDR comme Oracle ou SQL / Server.

**WipEout37** · 24/04/2019, 13h16

Très bien c’est noté. Merci pour ces infos précieuses.

Donc si les lignes de commande que vous me proposez fonctionnent, alors on peut dire que hadoop serait opérationnel malgré l’erreur du browse et de l’upload ?

**rouardg** · 24/04/2019, 15h18

Avant de revenir sur l'erreur du Browser et de l'Upload, oui je vous propose de tester les lignes de commande pour voir si l'HDFS fonctionne ou pas. La commande la plus basique est :

hdfs dfs -ls /

Il faut aussi penser à consulter les fichiers de Logs, qui en général sont sous /var/log/hadoop/hdfs. Peut-être que sur votre serveur, les Logs ont été mis ailleurs. Je vous laisse voir.

Comme vous l'avez dit, il existe aussi l'outil JPS pour voir les process Java démarrés.

Sinon vous pouvez utiliser la commande suivante pour tester le Namenode ainsi que le(s) Datanode(s) :

hdfs dfsadmin -report

Mais cette commande ne vous donnera quère plus que les résultats déjà obtenus avec le NN UI.

**WipEout37** · 24/04/2019, 19h46

Alors les commande hdfs ne fonctionnent pas malgré l'activation de hadoop. Par exemple :

hdfs dfsadmin -report

La commande «*hdfs*» n'a pas été trouvée, voulez-vous dire*:

commande «*hfs*» du deb hfsutils-tcltk
commande «*hdfls*» du deb hdf4-tools

Essayez*: sudo apt install <nom du deb>

...pareil pour les autres commandes

**rouardg** · 24/04/2019, 21h02

Là je ne comprends pas. Parce que d'une part, vous m'avez donné l'URL du tuto suivi, et d'autre part, vous m'avez dit avoir formaté l'HDFS.

Et dans le tuto, pour formater l'HDFS, on vous demande d'exécuter hdfs :

The following instructions are to run a MapReduce job locally. If you want to execute a job on YARN, see YARN on Single Node.

Format the filesystem:

$ bin/hdfs namenode -format

Donc si vous n'avez pas de commande hdfs, comment avez-vous fait le formatage ?

Pour info, il existe aussi une ancienne syntaxe où au lieu d'exécuter hdfs dfs, on exécutait hadoop fs, le tout suivi bien sûr de paramètres.

**WipEout37** · 24/04/2019, 21h08

En fait j’avais oublié le /bin....désolé je suis vraiment un débutant en Linux...

**WipEout37** · 24/04/2019, 21h14

les commandes fonctionnent sauf celle pour déposer un fichier dans my directory, sachant que j'ai mon fichier codes.odt dans le répertoire bin.

jujuf1@Z390:~/hadoop$ bin/hdfs dfs -put codes.odt/myDirectory
put: `.': No such file or directory: `hdfs://localhost:9000/user/jujuf1'

Upload et browse dans Apache Hadoop

Hadoop & co

Discussions similaires

Partager

Partager