IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Upload et browse dans Apache Hadoop


Sujet :

Hadoop & co

  1. #1
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut Upload et browse dans Apache Hadoop
    Bonjour,

    J'essaie de faire tourner Apache Hadoop sur Ubuntu (pas en virtuel) avec un seul nœud. Lorsque je clique sur browse et upload file, il me sort une erreur lié au webhfs ou un truc du genre (désolé je n'ai pas l'erreur sous la main car je suis retourné sur Windows). J'ajoute que j'ai installé Hadoop apache plusieurs fois avec des tutos différents sans résultat (toujours la même erreur…).

    Est-ce normal ? ou qu'ai-je mal fait ?
    Merci d'avance.

  2. #2
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Bonjour,

    Pour tenter de vous aider, je pense qu'il nous faudrait un peu plus de détails.

    Ok, vous n'avez qu'un seul noeud. Par contre, comment avez-vous installé Apache Hadoop ? En téléchargeant la version depuis le site Apache Hadoop ?
    Ou bien utilisez vous une distribution comme Cloudera ou Hortonworks ou MapR ?

    Sur quelle version d'Hadoop travaillez-vous ?

    Et pour finir, puisque vous n'avez qu'un noeud, avez-vous installé Hadoop en mode standalone ou en mode pseudo-distribué ?
    Je rappelle que les 2 s'installent sur un seul noeud, et que la différence se situe en terme de nombre de JVM.

    En mode standalone, tout Hadoop tourne dans une seule et unique JVM.

    En mode pseudo-distribué, on a plusieurs JVM.

    Pour finir, si vous avez suivi un tuto pour installer Hadoop, merci de nous communiquer si possible le lien.

  3. #3
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Bonjour,

    Premièrement merci beaucoup pour votre réponse.
    Je repasserai ce soir pour vous indiquer exactement l’erreur que j’ai et comment j’ai procédé.

    Je peux déjà répondre à quelques questions.

    J’ai téléchargé une version hadoop sur le site apache. J’ai suivi le Tuto associé. J’ai essayé des versions plus ou moins récentes d’hadoop. Je crois que je suis en pseudo distribué mais pas certain. Je dois réinstaller Linux et retester.


    Le Tuto est celui-ci. Il y en a d’autres mais essayons déjà avec celui la ..

    http://hadoop.apache.org/docs/stable...leCluster.html

    J’ai réussi à le faire fonctionner avec java 11 sans soucis, à part le message d’erreur que j’ai évoqué dans mon précédent post.


    En vous remerciant.

  4. #4
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Ok, essayez de nous donner le maximum d'information, notamment l'erreur que vous avez au niveau WebHDFS.

    En regardant le tuto, je vois qu'après l'installation d'Hadoop, ils vous font formater l'HDFS : bin/hdfs namenode -format
    Puis ils vous font démarrer le Namenode et le Datanode : sbin/start-dfs.sh

    Le Namnode dispose implicitement d'un UI (User Interface) qui est un serveur Web et qui est accessible par le port 50070 par défaut :

    Browse the web interface for the NameNode; by default it is available at:

    NameNode - http://localhost:50070/
    J'ai l'impression que vous accédez bien à cette URL. Dans l'onglet "Utilities", il y a bien un Browser de répertoire. Moi cela me donne cette erreur depuis mon PC :

    Nom : pb_Browse_HDFS.PNG
Affichages : 406
Taille : 21,0 Ko

    Dans mon cas c'est normal car le cluster Hadoop que j'utilise est Kerbérisé.

    Parlons-nous bien de la même chose, le Namenode UI sur le port 50070 ? Si oui, il me faudrait le message d'erreur SVP, voir une copie d'écran si possible.

    Merci

  5. #5
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Re bonjour,

    Je vous remercie pour votre aide.
    Nous parlons bien de la même interface (j’y accède via le port 9870, le numéro de port ayant changé). L’erreur que vous avez est ressemblante sans être tout à fait la même.

    Je vous posterai la copie d’ecran ce soir.

    Encore merci pour votre aide précieuse.

  6. #6
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Au fait, très important : si vous voulez utiliser l'API REST WebHDFS pour pouvoir lire et écrire des données dans l'HDFS, il faut l'activer !

    Aussi votre fichier de configuration hdfs-site.xml doit contenir :

    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
    Et pour info complémentaire, si un jour vous activez la haute-disponibilité au niveau de l'HDFS, faites attention car le protocole WebHDFS ne supporte pas la HA (High Availability).

    A ce moment-là, il faut utiliser l'HttpFS. Encore une couche logicielle supplémentaire à configurer !

  7. #7
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Très bien c’est noté je vais tester ce soir.

    Merci infiniment

  8. #8
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Bonsoir,

    Voici mes 2 scrennshots, le premier lorsque je fais browse et le deuxième lorsque j'essai d'uploader un fichier.

    Nom : Capture d’écran de 2019-04-23 20-26-04.png
Affichages : 397
Taille : 112,0 Ko

    Nom : Capture d’écran de 2019-04-23 20-27-23.png
Affichages : 392
Taille : 110,6 Ko

    Je vais rajouter maintenant votre ligne de code.

  9. #9
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    malheureusement rajouter vos lignes de codes ne me permet pas de résoudre le problème pour le moment (j'ai collé les lignes et redémarré hadoop).

  10. #10
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    J'ai l'impression que votre cluster n'est pas totalement opérationnel.

    Pouvez-vous faire une copie d'écran des 2 premiers onglets : Overview puis Datanodes

    Merci

  11. #11
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Merci encore pour votre aide

    J'ai relancé hadoop sans reformater en hdfs et quand je fais "JPS" j'ai le namemode et le datamode. En stoppant hadoop puis en formatant puis en relançant hadoop j'ai namemode, datamode et secondary namemode. Je trouve cela bizarre. Je pensais qu'il fallait formater qu'une seule fois ?

    Sinon voici les images :

    Nom : Capture d’écran de 2019-04-24 06-49-47.png
Affichages : 382
Taille : 219,3 Ko

    Nom : Capture d’écran de 2019-04-24 06-49-54.png
Affichages : 385
Taille : 196,6 Ko

    Nom : Capture d’écran de 2019-04-24 06-50-01.png
Affichages : 380
Taille : 151,3 Ko

  12. #12
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Bonjour,

    Oui, un seul formatage suffit. Et je suis incapable de dire ce qui s'est passé.

    Mais bon, d'après vos copies d'écran, votre cluster Hadoop est up et opérationnel.

    Le seul point que j'ai relevé concerne le Namenode storage :

    /tmp/hadoop-jujuf1/dfs/name

    Pourquoi l'espace réservé aux futurs blocs HDFS est dans le /tmp ???

    Sinon vous devriez pouvoir commencer à livrer des fichiers dans l'HDFS.

    Avant d'utiliser le NN UI (NameNode User Interface), je vous invite à tester qq commandes basiques comme :

    hdfs dfs -ls /
    hdfs dfs -mkdir /myDirectory
    hdfs dfs -put mon_fichier /myDirectory

  13. #13
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Pour l’emplacement dans tmp je ne sais pas ça a été fait par défaut. Je testerai vos commandes ce soir.

    Quand vous dite «*mon fichier*» ce serait quoi comme genre de fichier ? N’importe quel type ? Ou un csv ?

    Merci

  14. #14
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Dans l'HDFS, on peut stocker n'importe quel type de fichier.

    Mais un CSV serait bien pour la suite.

    Car une fois la couche HDFS opérationnelle, on passe à MapReduce et surtout à Hive qui permet d'exécuter des requêtes SQL en les transformant en code MR (MR = MapReduce).

    Et donc, un des exercices classiques sur Hive consiste d'abord à créer une table externe mappée sur votre fichier CSV.

    Puis on crée une table interne calquée sur la table externe, à l'aide d'un CTAS (Create Table as Select).

    Cette manipulation permet en fait d'avoir les mêmes données, mais dans un autre format (Hive adore le format ORC) et avec une compression de données (souvent du Snappy mais il y en a d'autres) pour réduire l'empreinte disque.

    Car n'oubliez pas que Hadoop a été fait pour traiter des fichiers de très grandes tailles, et les stocker dans des blocs HDFS de 64 ou 128 Mo, ce qui nous change des blocs de 8 Ko gérés par des SGBDR comme Oracle ou SQL / Server.

  15. #15
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Très bien c’est noté. Merci pour ces infos précieuses.

    Donc si les lignes de commande que vous me proposez fonctionnent, alors on peut dire que hadoop serait opérationnel malgré l’erreur du browse et de l’upload ?

  16. #16
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Avant de revenir sur l'erreur du Browser et de l'Upload, oui je vous propose de tester les lignes de commande pour voir si l'HDFS fonctionne ou pas. La commande la plus basique est :

    hdfs dfs -ls /

    Il faut aussi penser à consulter les fichiers de Logs, qui en général sont sous /var/log/hadoop/hdfs. Peut-être que sur votre serveur, les Logs ont été mis ailleurs. Je vous laisse voir.

    Comme vous l'avez dit, il existe aussi l'outil JPS pour voir les process Java démarrés.

    Sinon vous pouvez utiliser la commande suivante pour tester le Namenode ainsi que le(s) Datanode(s) :

    hdfs dfsadmin -report
    Mais cette commande ne vous donnera quère plus que les résultats déjà obtenus avec le NN UI.

  17. #17
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    Alors les commande hdfs ne fonctionnent pas malgré l'activation de hadoop. Par exemple :

    hdfs dfsadmin -report

    La commande «*hdfs*» n'a pas été trouvée, voulez-vous dire*:

    commande «*hfs*» du deb hfsutils-tcltk
    commande «*hdfls*» du deb hdf4-tools

    Essayez*: sudo apt install <nom du deb>

    ...pareil pour les autres commandes

  18. #18
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Là je ne comprends pas. Parce que d'une part, vous m'avez donné l'URL du tuto suivi, et d'autre part, vous m'avez dit avoir formaté l'HDFS.

    Et dans le tuto, pour formater l'HDFS, on vous demande d'exécuter hdfs :

    The following instructions are to run a MapReduce job locally. If you want to execute a job on YARN, see YARN on Single Node.

    Format the filesystem:

    $ bin/hdfs namenode -format
    Donc si vous n'avez pas de commande hdfs, comment avez-vous fait le formatage ?

    Pour info, il existe aussi une ancienne syntaxe où au lieu d'exécuter hdfs dfs, on exécutait hadoop fs, le tout suivi bien sûr de paramètres.

  19. #19
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    En fait j’avais oublié le /bin....désolé je suis vraiment un débutant en Linux...

  20. #20
    Membre du Club
    Homme Profil pro
    dev
    Inscrit en
    Février 2018
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Février 2018
    Messages : 119
    Points : 63
    Points
    63
    Par défaut
    les commandes fonctionnent sauf celle pour déposer un fichier dans my directory, sachant que j'ai mon fichier codes.odt dans le répertoire bin.

    jujuf1@Z390:~/hadoop$ bin/hdfs dfs -put codes.odt/myDirectory
    put: `.': No such file or directory: `hdfs://localhost:9000/user/jujuf1'

Discussions similaires

  1. Réponses: 1
    Dernier message: 23/10/2013, 11h02
  2. [Upload] Insertion image dans mysql après upload
    Par alexmorel dans le forum Langage
    Réponses: 4
    Dernier message: 20/03/2006, 23h46
  3. [Upload] upload de fichier dans un dossier creer en ligne
    Par jeanfrancois dans le forum Langage
    Réponses: 1
    Dernier message: 20/03/2006, 14h09
  4. Réponses: 2
    Dernier message: 20/01/2006, 15h15
  5. [Struts][Oracle]Upload fichier word dans une base
    Par Maximil ian dans le forum Struts 1
    Réponses: 7
    Dernier message: 10/02/2004, 15h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo