1. #1
    Nouveau membre du Club
    Homme Profil pro
    BI
    Inscrit en
    septembre 2015
    Messages
    35
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : BI
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : septembre 2015
    Messages : 35
    Points : 38
    Points
    38

    Par défaut Taille d'un cluster Hadoop

    Salut la team,

    j'aurais besoin de quelques conseil et de retour d'expérience si c'est possible.

    je cherche à monter un cluster Hadoop à moindre coup en sein de mon entreprise et je ne sais pas quelle taille se dernier doit avoir.

    Pour ce qui est de l'utilisation, rien d'important. il sera principalement utilisé comme sandbox et comme cluster de démonstration, aucun traitement complexe qui demande une tonne de cpu.il me faudra un git pour centraliser mes codes,Maven, HDFS, Hive,Map Reduce, Spark et solR

    j'avais pensé à un Namenode (4 CPU,8go RAM & 500go disk) et 3 Datanode (8 CPU, 8go RAM & 500go disk).

    des retours ?

    Merci

  2. #2
    Membre éprouvé

    Homme Profil pro
    Data Scientist & Statisticien
    Inscrit en
    février 2009
    Messages
    423
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Data Scientist & Statisticien
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : février 2009
    Messages : 423
    Points : 1 045
    Points
    1 045
    Billets dans le blog
    2

    Par défaut

    Bonjour,

    As tu déjà pensé au Cloud ? Cela pose beaucoup moins de problèmes d'architecture qu’une des versions MapR, Horton ou Cloudera.

    Au plaisir de te lire,

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    BI
    Inscrit en
    septembre 2015
    Messages
    35
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : BI
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : septembre 2015
    Messages : 35
    Points : 38
    Points
    38

    Par défaut

    Citation Envoyé par dev_ggy Voir le message
    Bonjour,

    As tu déjà pensé au Cloud ? Cela pose beaucoup moins de problèmes d'architecture qu’une des versions MapR, Horton ou Cloudera.

    Au plaisir de te lire,
    Bonjour dev_ggy,

    Effectivement j'ai pensé au cloud, mais même problématique. comment dois-je sizer mon cluster.

    cdt

  4. #4
    Membre éprouvé

    Homme Profil pro
    Data Scientist & Statisticien
    Inscrit en
    février 2009
    Messages
    423
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Data Scientist & Statisticien
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : février 2009
    Messages : 423
    Points : 1 045
    Points
    1 045
    Billets dans le blog
    2

    Par défaut

    Une réponse de normand te dirais tout dépend de ton besoin.

    Une réplication classique, une données est reproduite trois fois. Tu as trois Data Node de 500Go. Cela te donne un ordre d'idée du nombre de cluster pour le HDFS.

    Pour info sur la RAM :

    CDH 5 (default) 4+ GiB*
    Cloudera Express 8+ GiB*
    Cloudera Enterprise (trial) 10+ GiB*

  5. #5
    Expert Oracle confirmé

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2003
    Messages
    361
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Conseil

    Informations forums :
    Inscription : mars 2003
    Messages : 361
    Points : 731
    Points
    731

    Par défaut

    Bonjour,

    J'ai bien compris qu'il s'agissait d'une Sandbox, mais monter un cluster Hadoop pour seulement 500 Go de disque sur un noeud, personnellement je ne vois pas bien l'intérêt.

    Moi qui fait de l'Oracle, rien que pour un Datawarehouse de test, je suis déjà en To ou en dizaine de To, car même si l'on veut tester son code, on veut aussi se rapprocher d'une volumétrie de production. Après tout, Hadoop comme le Datawarehouse, c'est fait pour traiter du volume.

    Je n'ai personnellement aucune expérience dans l'Hadoop, mais j'ai toujours gardé en tête les indications qu'un ingénieur de la société HP, rencontré sur le salon du Big Data en 2015 et qui se montait des clusters Hadoop en intégration, m'avait donné, pour des serveurs physiques utilisé en "Commodity Hardware".

    "Commodity Hardware" signifie entre autre que :
    - on utilise du DAS (Direct Attached Storage), en clair des disques locaux qui sont dans le serveur même
    - on n'utilise donc pas de SAN, beaucoup trop coûteux
    - les disques sont en SATA 3, à 7.200 tours/m, et ont une capacité entre 1 et 4 To
    - si l'on est riche, on peut avoir des disques SAS à 15.000 tours/m, mais c'est plus cher et les disques sont de plus petites capacités que le SATA
    - sur les Datanodes, il n'y a pas de RAID puisque sur un cluster Hadoop, les données sont répliquées sur les différents Datanodes, avec un facteur de réplication de 3 par défaut (facteur qui peut être modifié)
    - par contre, il est conseillé d'utiliser du RAID en mirroring sur le Namenode, puisque le Namenode est essentiel au fonctionnement du cluster Hadoop, car il contient toutes les métadonnées sur la distribution des fichiers de données sur l'HDFS
    - utiliser de la RAM ECC (avec détecteur et correcteur d'erreurs donc)


    La méthodologie de cet ingénieur :

    1) déterminer avant tout le volume de données à gérer. Par exemple, pour 20 To de données à gérer, on peut prendre 10 disques SATA de 2 To, ou bien 5 disques SATA de 4 To. Tout dépend de ce que l'on a en stock et du nombre de disques acceptés par le serveur.

    Bien entendu, si l'on a un plus gros volume à gérer (genre 200 To), on est obligé d'augmenter le nombre de Datanodes dans le cluster. Mais là on part sur une configuration minimale de 3 Datanodes.


    2) utiliser en gros un cœur physique par disque. Dans notre cas de figure, il nous faut soit 5 cœurs pour les 5 disques, soit 10 cœurs pour les 10 disques. A voir en fonction de son stock (processeurs 4 cœurs, 6 cœurs, 8 cœurs...., et aussi en fonction du nombre de sockets par serveur)


    3) pour la RAM, affecter en gros 2 Go par cœur, soit dans notre cas de figure entre 8 et 16 Go de RAM en arrondissant


    Pour le Namenode, je ne sais pas trop dire, le plus important étant d'avoir suffisamment de RAM pour que les métadonnées tiennent en mémoire.


    Et comme disait dev_ggy, il faut plus que penser au Cloud, car d'une part les ressources sont "élastiques", et d'autre part on ne paye qu'à l'usage. C'est donc parfait pour faire un POC, à condition de penser à éteindre ces VM une fois les tests faits, pour ne pas payer inutilement.

    Par contre, l'espace disque lui se paye forcément dès qu'il est alloué.

Discussions similaires

  1. Réponses: 2
    Dernier message: 09/02/2015, 19h28
  2. Récupérer la taille d'un cluster
    Par Kaji dans le forum C++
    Réponses: 6
    Dernier message: 07/03/2008, 14h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo