IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

quel ecosystème utiliser pour un POC - best practises


Sujet :

Big Data

  1. #1
    Membre à l'essai
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mai 2011
    Messages
    20
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2011
    Messages : 20
    Points : 12
    Points
    12
    Par défaut quel ecosystème utiliser pour un POC - best practises
    Bonsoir à tous,

    j'ai une application que je compte commercialiser et rendre accessible au grand public d'ici fin 2018.
    Je suis à la première étape de mon poc et j’estime que je vais faire face à d'énormes données et de base de données en graphes.

    Je souhaite configurer un ecosystème hadoop dès le début pour prévoir la gestion des données distribués.
    Mon problème c'est que je ne sais pas si je dois utiliser un système cloudera (par exemple) payant dès maintenant
    ou y'a t'il un moyen d'installer un ecosystème distribué avec le moindre coût possible (puisque ce n'est qu'un poc)

    Merci de me donner vos conseils
    je suis ouvert à vos propositions d'experts

    Bonne soirée

  2. #2
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Bonjour,

    Je ne suis pas expert, mais pour moi, la première question à se poser, c'est de savoir sur quelle base orientée graphe de quel éditeur logiciel je vais travailler. Avez-vous fait votre choix en ce sens ?

    Pour ma part, je n'ai travaillé que sur Neo4j lors d'un MOOC de 6 mois sur le Big Data.

    Bien entendu, pour traiter du volume, il vous faudra forcément à un moment donné un cluster (un ensemble de machines).

    Il faut aussi se poser des questions sur l'ingestion de données :
    - comment les données arrivent
    - sous quel format
    - à quelle fréquence
    - à quel volume
    - où seront-elles déposées

    L'autre question est de savoir quels sont les autres logiciels retenus, afin de savoir si il existe des connecteurs.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mai 2011
    Messages
    20
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2011
    Messages : 20
    Points : 12
    Points
    12
    Par défaut
    merci @rouardg pour l'interaction rapide,
    pour les graphes je vais probablement utiliser NEO4J, puisque je l'ai pas mal utilisé sur d'autres projets, mais c'est pas exactement ça mon problème.

    mon problème c'est que je ne sais pas si je dois démarrer avec un système cluster? (vue que j'ai pas autant de volume à traiter pour le moment)
    En revanche si vous me dites non c'est pas la peine, c'est pas couteux de faire toute une migration vers le cluster une fois que j'aurai le besoin??

    ma deuxième question c'est comment faire l'estimation des points que t'as cité: (comment les données arrivent, sous quel format, à quelle fréquence, à quel volume, où seront-elles déposées)
    Peut on faire ça ici tout de suite? je suis bloqué et je veux déduire avec vous la solution la plus optimale pour le démarrage de mes devs.

    Merci encore

  4. #4
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    mon problème c'est que je ne sais pas si je dois démarrer avec un système cluster? (vue que j'ai pas autant de volume à traiter pour le moment)
    En revanche si vous me dites non c'est pas la peine, c'est pas couteux de faire toute une migration vers le cluster une fois que j'aurai le besoin??
    Désolé, mais je ne sais pas. En effet, j'ai juste utilisé Neo4j sur mon PC, en standalone, et n'ai donc jamais monté de cluster Neo4j.

    Par contre, les éditeurs de logiciel font de plus en plus de formations en ligne gratuites. Neo4j n'échappe pas à la règle :

    https://neo4j.com/graphacademy/onlin...o4j-production

    A mon avis, la réponse à votre question se trouve dans la leçon 3. Attention, pour faire du clustering avec Neo4j, il faut utiliser la version Enterprise, pas la version Communautaire.


    Course Outline

    Lesson 1: Neo4j Deployment Options
    Lesson 2: Neo4j Server Knowledge
    Lesson 3: Enterprise Edition and Clustering
    Lesson 4: Production Administration
    Lesson 5: Guidance

    ma deuxième question c'est comment faire l'estimation des points que t'as cité: (comment les données arrivent, sous quel format, à quelle fréquence, à quel volume, où seront-elles déposées)
    Peut on faire ça ici tout de suite? je suis bloqué et je veux déduire avec vous la solution la plus optimale pour le démarrage de mes devs.
    Je ne peux répondre non plus. Si vous souhaitez commercialiser une application, c'est qu'elle répond forcément à un besoin métier, et vous avez donc du formuler à minima une expression de besoins, pour savoir ce que vous voulez faire au final.

    Cette expression de besoin prend forcément en compte au moins le type et le format de données, et si possible la volumétrie attendue.

  5. #5
    Membre à l'essai
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mai 2011
    Messages
    20
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2011
    Messages : 20
    Points : 12
    Points
    12
    Par défaut
    Donc il n'y a pas un moyen de faire un poc en cluster (hadoop ou neo4J) avec une version gratuite?

  6. #6
    Expert Oracle confirmé

    Homme Profil pro
    Consultant Big Data
    Inscrit en
    Mars 2003
    Messages
    448
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Consultant Big Data
    Secteur : Conseil

    Informations forums :
    Inscription : Mars 2003
    Messages : 448
    Points : 926
    Points
    926
    Par défaut
    Pour Neo4j, je vois sur leur site que l'on peut télécharger une version Entreprise d'essai pour 30 jours. Après, je ne sais pas comment cela se passe, mais je pense qu'il faut payer.

    Sinon la version communautaire est entièrement gratuite, mais elle ne fait pas d'In-Memory, ni de Cluster.


    Vouloir faire du cluster veut dire qu'il faut disposer de plusieurs machines. Si c'est un POC, on peut se contenter de qq VM sur son PC, mais encore faut-il avoir un PC avec suffisamment de RAM (au moins 16 Go, voir 32).

    Si vous avez qq VM, rien ne vous empêche de télécharger Hadoop et de l'installer par vous même.

    Pour la culture, il existe qq logiciels en cluster où l'on peut se passer de plusieurs VM. Par exemple, pour se monter une base MongoDB sur un cluster de 3 Shards, avec 3 Replica Sets par Shard, il faudrait avoir en théorie 9 VM.

    Sauf que l'on peut tout installer sur son PC, en affectant des ports différents à chaque exécutable.

    Du coup, je me demande si on peut faire pareil avec Neo4j, à savoir tester la version Enterprise en cluster, sur la même machine mais en utilisant des ports différents.



    Sinon en solution finale, on peut aller dans le Cloud (Amazon ou Azure), mais ce ne sera pas gratuit. Par contre, vous payez à l'usage (pour la RAM et la CPU). Du coup, il faut penser à arrêter ses VM à la fin du test pour ne pas les payer. Seul le stockage est payant par mois.

    Et puis dans le Cloud, les ressources sont normalement élastiques. Vous pouvez à un moment consommer plus de VM et de stockage pour un besoin ponctuel, puis les rendre.

    Je ne peux vous en dire plus, n'ayant jamais essayé.

  7. #7
    Membre à l'essai
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mai 2011
    Messages
    20
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2011
    Messages : 20
    Points : 12
    Points
    12
    Par défaut
    merci beaucoup @rouardg je suis ravi,

    pour que je puisse creuser plus et avoir plus de visibilité sur ce sujet,
    y'a t'il quelqu'un qui a déjà fait du clustering hadoop pour un poc? il suffit de me dire si c'est utile ou pas de foncer sur hadoop dès le début
    si non je vais faire avec une base relationelle sans clusters (c'est moins couteux je pense)

Discussions similaires

  1. quel language utiliser pour agir sur un log automatiquent
    Par qegukom dans le forum Langages de programmation
    Réponses: 3
    Dernier message: 05/08/2004, 21h00
  2. [Parser HTML] quel parser utiliser pour du HTML 4.0 ?
    Par Cyber@l dans le forum API standards et tierces
    Réponses: 5
    Dernier message: 19/07/2004, 19h32
  3. [Debutant(e)]Quel composant utiliser pour faire une grille
    Par elitost dans le forum Composants
    Réponses: 7
    Dernier message: 21/06/2004, 20h44
  4. Réponses: 3
    Dernier message: 27/08/2003, 21h14
  5. Réponses: 2
    Dernier message: 11/07/2002, 08h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo