Difference entre MapReduce et MapR

**mbdsi** · 23/05/2017, 15h24

Bonjour à tous,

J'ai une question basique qui, malgré ma lecture et relecture des sites officiels, ne me permet pas de statuer...
Je cherchais à identifier les langages supportés pour le travail en parallèle de MapR, je me suis heurté une nouvelle fois (mais cette fois ci sur le site officiel) à un changement de nom de l'outil... Pourtant ce ne sont pas les mêmes si je me réfère à plein d'autres sources...

Par exemple, MapReduce est censé être un outil de processing prenant en charge du C++ et du JAVA. Quant à MapR, il est composé de 3 modules (FS, DB et Streams), c'est censé être des outils dédié au Scheduling, Rescue data, storing et Analysis qui doivent aussi pouvoir travailler avec plusieurs langages en parallèle (dont je n'arrive pas à trouver la liste)...

Pourtant sur le site officiel de MapR, dans certaines explications, il commence à l'appeler MapReduce... Ce qui me perturbe assez...
(https://mapr.com/blog/parallel-and-i...dations-spark/)

Quelqu'un saurais m'éclairer ? Et accessoirement me dire la liste des langages traités en parallèle par MapR?

Merci d'avance,

**rouardg** · 24/05/2017, 13h03

Bonjour,

MapReduce est bien un Framework inventé par Google pour faire du calcul parallèle et distribué.

Ce Framework a été repris par la fondation Apache pour être implémenté en open-source dans le Framework Hadoop.

Maintenant MapR est avant tout une société qui développe et vend des solutions dérivées d'Apache Hadoop. Elle n'est pas la seule société puisque ses concurrents sont entre autre Hortonworks et Cloudera.

Le but de ces sociétés est en fait de te vendre toute une Stack logicielle qui va fonctionner.

Car au fur et à mesure du temps, l'écosystème Hadoop s'est étoffé et il y a des myriades de logiciels.

Tout néophyte arrivant sur le Big Data entend parler de Hadoop, HDFS, MapReduce, YARN, Pig, Hive, Spark, Tez, Oozie, ZooKeeper, Hue, HBase, Kafka, Kudu, etc, etc et se demande bien à quoi tout cela sert.

Tu passes déjà un temps fou à comprendre ce que fait chacune de ces briques.

Ensuite si tu veux te monter ton infrastructure, soit tu fais tout toi-même et tu perds un temps fou, car il faut apprendre à déployer et à paramétrer chacun de ces logiciels. De plus, pour que le tout soit compatible, il faut faire attention à la version de chaque composant, car il y a parfois des incompatibilités entre les versions.

L'autre alternative, c'est de passer par des éditeurs tels que ceux nommés (mais il y en a d'autres) qui vont te vendre des plateformes complètes.

Pour finir, ton lien est un article qui parle de Spark.

Tu peux voir Spark comme la suite d'Hadoop. C'est un nouveau Framework pour faire, comme Hadoop, du calcul parallèle et distribué, mais Spark comble des lacunes d'Hadoop.

En gros :

- Hadoop fait pas mal usage d'écriture disque, lors des phases de Shufle & Sort, et lors d'enchaînements de tâches Map / Reduce. Spark s'en sort beaucoup mieux, car il optimise les différentes phases de traitement, et minimise aussi les accès disques car il travaille en mémoire

- Hadoop ne fonctionne qu'en mode batch, alors que Spark offre une console interactive. Tu peux donc faire du pas à pas

- lorsque tu fais du ML (Machine Learning), le ML utilise pas mal de calculs itératifs. Or Spark sait maintenir ses objets (RDD et Dataframes) en mémoire (on dit qu'il fait de l'In-Memory) et du coup les performances s'en trouvent décuplées.

**mbdsi** · 24/05/2017, 13h49

Envoyé par rouardg

Maintenant MapR est avant tout une société qui développe et vend des solutions dérivées d'Apache Hadoop. Elle n'est pas la seule société puisque ses concurrents sont entre autre Hortonworks et Cloudera.

Ok, ça m'explique pas mal de chose... J'avais déjà du retirer HortonWorks de ma liste d'outils pour la même raison, pourtant beaucoup continue de considérer MapR comme un outil à part... ou cela viens de la même erreur d'approche que la mienne.

Envoyé par rouardg

Tu passes déjà un temps fou à comprendre ce que fait chacune de ces briques.

Je confirme, je suis dessus depuis 3 semaines, j'ai listé 82 outils (79 maintenant que je vais virer MapR FS, MapR DB et MapR Streams). Et je me rends compte à quel point les fausses informations sont extrêmement nombreuses concernant le BIG DATA... Peu savent vraiment de quoi ils parlent.

Envoyé par rouardg

Pour finir, ton lien est un article qui parle de Spark.

Oui, et de souvenir je suis arrivé dessus depuis le site officiel de MapR en cliquant sur lien du genre "Qu'est ce que MapR"... C'est la que j'ai déchanté, traverser mon écran avec mon point, brisé le crane de mon collègue avec le clavier, et étranglé mon manager avec le câble de la souris... C'est dangereux le BIG DATA...

En tout cas, merci beaucoup pour tes explications.

**Bouga74** · 01/06/2017, 15h05

Je me permet mon retour d’expérience (qui ne répondra par ailleurs aucunement à tes questions mais peut peut-être t'aider à orienter ta recherche d'info

)

En 2012, le prestataire de l'application que j'utilise quotidiennement nous a mis à dispo une version hybride de sa solution.
On est passé d'un référentiel 100% sur Oracle à un référentiel basé en partie sur Oracle (95% des tables / 5% du volume) et en partie sur Hbase (5% des tables pour 95% du volume en gros).
Les gains de temps étaient déjà conséquents (> 4 ou 5 je ne sais plus). Des traitements de l’appli qui duraient 8 à 10h tournaient en moins de 2h. Sachant qu'on en avait 5 ou 6 à lancer, ça nous faisait bien plaisir d'arrêter de travailler le week-end

).

Depuis lors, mon boss m'a chargé de garder un œil sur ce qu'il se passait et sur l'opportunité de passer sur ce genre de techno pour notre traitement hebdomadaire (chargement de 200 tables (les plus grosses étant > 800M lignes / 250Go), ETL processes puis génération de XML pour envoyer dans notre application).

Nous avons fait un premier POC, plutôt catastrophique (le gars était là pour nous vendre son produit et n'était pas bon, du moins n'avait jamais dû se servir de son outil en condition réelle).

Le second a été très bon, le mec en question ne vendait rien, juste du service.
Nous avons organisé un POC sur 3 jours. Nous avons pris notre traitement le plus long (10h) et avons vu ce que nous pouvions faire. On a utilisé Scoop, Hive et Spark principalement (installation via Ambari et Zeppelin pour tester le code Scala et les fichiers Parquet... Bref tout ça pour te dire que ça faisait beaucoup de mots inconnus pour moi sur le coup !).
Le temps de traitement a été divisé par 10 alors qu'on avait mis en place un cluster "très petit" (1NN, 4 Datanodes de 24GO chacun, 200GO de disque).
1h pour faire ce que nous faisons en 10.

Bref, tout ça pour dire que j'ai essayé de me renseigner durant tout ce temps sur ces technos.
Mais comme ce n'est qu'une tache de fond, et que je n'ai pas beaucoup de temps à consacrer à ces recherches, c'est peine perdue : bien trop de techno différentes, pas de cluster à dispo pour tester les différentes briques non plus.

Nous avons décidé d'essayer de trouver un prestataire qui s'y connait, et nous l'avons trouvé.
Il nous fait gagner un temps fou, et de plus, il a déjà implémenté des solutions Big Data chez des grosses sociétés.

C'est le meilleur moyen d'éviter de se planter et de gagner énormément de temps de mon point de vue.
Et pour devenir expert dans le domaine sans travailler dessus tous les jours, c'est juste pas possible de mon côté.

Enfin, vu que tu as l’air d’être un peu dans mon cas, tout ça pour te conseiller de passer par des personnes qui s'y connaissent et qui traine dedans depuis un certain temps, elles coutent « chère » mais te font économiser énormément de temps et te permettent surtout de monter en puissance dans le domaine sans te faire embobiner par des charlatans venue te vendre du BigData parce que c'est à la mode.

J'avais prévenu, ca ne répond aucunement à ta question !

Mais effectivement, comme dit plus haut par rouardg, MapR (du moins je connais plus Hortonworks et Cloudera) il faut le voir comme une boite contenant pleins de technos (HDFS, Spark, Hive, Hbase...) et dont les versions sont compatibles. Tu peux installer uniquement HDFS, ou alors les 30-40 technos dispo dans le package.

MapReduce est très bas niveau, un concept de traitement massivement parallélisé, et est de plus en plus remplacé par Spark, qui sera assez vite remplacé par Spark 2, qui sera assez vite remplacé par...

To be continued !

(en espérant n'avoir pas dit trop de bêtises, étant très loin d'être un spécialiste Big Data)

**mbdsi** · 01/06/2017, 16h34

Merci pour ton retour.
En effet, ce n'est pas en accord direct avec le sujet d'origine, mais cela reste très enrichissant.

Et je confirme que la recherche théorique ne mène pas à grand chose, mais je pense qu'on veut juste me rentabiliser pendant mon intercontrat... J'avance quand même mais je sais que mon étude comporte des erreurs et que plus de la moitié de ce que je lis sur le net n'a rien à voir avec le vrai big data.

Quoiqu'il en soi, je pense que je finirais par réussir à en ressortir des choses intéressantes, mais pas ce qui en était attendus au départ.

Difference entre MapReduce et MapR

Big Data

Discussions similaires

Partager

Partager