quel ecosystème utiliser pour un POC - best practises

**infiniste** · 03/08/2017, 20h56

Bonsoir à tous,

j'ai une application que je compte commercialiser et rendre accessible au grand public d'ici fin 2018.
Je suis à la première étape de mon poc et j’estime que je vais faire face à d'énormes données et de base de données en graphes.

Je souhaite configurer un ecosystème hadoop dès le début pour prévoir la gestion des données distribués.
Mon problème c'est que je ne sais pas si je dois utiliser un système cloudera (par exemple) payant dès maintenant
ou y'a t'il un moyen d'installer un ecosystème distribué avec le moindre coût possible (puisque ce n'est qu'un poc)

Merci de me donner vos conseils
je suis ouvert à vos propositions d'experts

Bonne soirée

**rouardg** · 04/08/2017, 10h42

Bonjour,

Je ne suis pas expert, mais pour moi, la première question à se poser, c'est de savoir sur quelle base orientée graphe de quel éditeur logiciel je vais travailler. Avez-vous fait votre choix en ce sens ?

Pour ma part, je n'ai travaillé que sur Neo4j lors d'un MOOC de 6 mois sur le Big Data.

Bien entendu, pour traiter du volume, il vous faudra forcément à un moment donné un cluster (un ensemble de machines).

Il faut aussi se poser des questions sur l'ingestion de données :
- comment les données arrivent
- sous quel format
- à quelle fréquence
- à quel volume
- où seront-elles déposées

L'autre question est de savoir quels sont les autres logiciels retenus, afin de savoir si il existe des connecteurs.

**infiniste** · 04/08/2017, 12h31

merci @rouardg pour l'interaction rapide,
pour les graphes je vais probablement utiliser NEO4J, puisque je l'ai pas mal utilisé sur d'autres projets, mais c'est pas exactement ça mon problème.

mon problème c'est que je ne sais pas si je dois démarrer avec un système cluster? (vue que j'ai pas autant de volume à traiter pour le moment)
En revanche si vous me dites non c'est pas la peine, c'est pas couteux de faire toute une migration vers le cluster une fois que j'aurai le besoin??

ma deuxième question c'est comment faire l'estimation des points que t'as cité: (comment les données arrivent, sous quel format, à quelle fréquence, à quel volume, où seront-elles déposées)
Peut on faire ça ici tout de suite? je suis bloqué et je veux déduire avec vous la solution la plus optimale pour le démarrage de mes devs.

Merci encore

**rouardg** · 04/08/2017, 13h22

mon problème c'est que je ne sais pas si je dois démarrer avec un système cluster? (vue que j'ai pas autant de volume à traiter pour le moment)
En revanche si vous me dites non c'est pas la peine, c'est pas couteux de faire toute une migration vers le cluster une fois que j'aurai le besoin??

Désolé, mais je ne sais pas. En effet, j'ai juste utilisé Neo4j sur mon PC, en standalone, et n'ai donc jamais monté de cluster Neo4j.

Par contre, les éditeurs de logiciel font de plus en plus de formations en ligne gratuites. Neo4j n'échappe pas à la règle :

https://neo4j.com/graphacademy/onlin...o4j-production

A mon avis, la réponse à votre question se trouve dans la leçon 3. Attention, pour faire du clustering avec Neo4j, il faut utiliser la version Enterprise, pas la version Communautaire.

Course Outline

Lesson 1: Neo4j Deployment Options
Lesson 2: Neo4j Server Knowledge
Lesson 3: Enterprise Edition and Clustering
Lesson 4: Production Administration
Lesson 5: Guidance

ma deuxième question c'est comment faire l'estimation des points que t'as cité: (comment les données arrivent, sous quel format, à quelle fréquence, à quel volume, où seront-elles déposées)
Peut on faire ça ici tout de suite? je suis bloqué et je veux déduire avec vous la solution la plus optimale pour le démarrage de mes devs.

Je ne peux répondre non plus. Si vous souhaitez commercialiser une application, c'est qu'elle répond forcément à un besoin métier, et vous avez donc du formuler à minima une expression de besoins, pour savoir ce que vous voulez faire au final.

Cette expression de besoin prend forcément en compte au moins le type et le format de données, et si possible la volumétrie attendue.

**infiniste** · 04/08/2017, 14h02

Donc il n'y a pas un moyen de faire un poc en cluster (hadoop ou neo4J) avec une version gratuite?

**rouardg** · 04/08/2017, 14h27

Pour Neo4j, je vois sur leur site que l'on peut télécharger une version Entreprise d'essai pour 30 jours. Après, je ne sais pas comment cela se passe, mais je pense qu'il faut payer.

Sinon la version communautaire est entièrement gratuite, mais elle ne fait pas d'In-Memory, ni de Cluster.

Vouloir faire du cluster veut dire qu'il faut disposer de plusieurs machines. Si c'est un POC, on peut se contenter de qq VM sur son PC, mais encore faut-il avoir un PC avec suffisamment de RAM (au moins 16 Go, voir 32).

Si vous avez qq VM, rien ne vous empêche de télécharger Hadoop et de l'installer par vous même.

Pour la culture, il existe qq logiciels en cluster où l'on peut se passer de plusieurs VM. Par exemple, pour se monter une base MongoDB sur un cluster de 3 Shards, avec 3 Replica Sets par Shard, il faudrait avoir en théorie 9 VM.

Sauf que l'on peut tout installer sur son PC, en affectant des ports différents à chaque exécutable.

Du coup, je me demande si on peut faire pareil avec Neo4j, à savoir tester la version Enterprise en cluster, sur la même machine mais en utilisant des ports différents.

Sinon en solution finale, on peut aller dans le Cloud (Amazon ou Azure), mais ce ne sera pas gratuit. Par contre, vous payez à l'usage (pour la RAM et la CPU). Du coup, il faut penser à arrêter ses VM à la fin du test pour ne pas les payer. Seul le stockage est payant par mois.

Et puis dans le Cloud, les ressources sont normalement élastiques. Vous pouvez à un moment consommer plus de VM et de stockage pour un besoin ponctuel, puis les rendre.

Je ne peux vous en dire plus, n'ayant jamais essayé.

**infiniste** · 04/08/2017, 15h27

merci beaucoup @rouardg

je suis ravi,

pour que je puisse creuser plus et avoir plus de visibilité sur ce sujet,
y'a t'il quelqu'un qui a déjà fait du clustering hadoop pour un poc? il suffit de me dire si c'est utile ou pas de foncer sur hadoop dès le début
si non je vais faire avec une base relationelle sans clusters (c'est moins couteux je pense)

quel ecosystème utiliser pour un POC - best practises

Big Data

Discussions similaires

Partager

Partager