Bonjour à tous,
je fais appelle a vous car je suis en train d'apprendre et essayer de comprendre le fonctionnement de MapReduce. Et malheureusement je constate que j'ai du mal à comprendre la maniere dont celui-ci fonctionne.
Voici la definition de mapreduce qui ressort de pas mal d'articles :
MapReduce : Framework qui permet d’écrire des applications pour faire des traitements big data sur un cluster hadoop. MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines( à des nœuds du cluster) pour pouvoir être traitées en parallèle.
Deja il y a quelque chose qui me gene avec cette definition. En effet, etant donnée que MapReduce est sur un Systeme de fichiers distribué les données sont deja decoupées (en effet on a un datafile qui est decoupé en block pour etre reparties sur les differentes machines d'un cluster (HDFS par exemple). Donc comment est ce que mapreduce peut decouper et distribuer ce qui a deja été decoupé et distribuer.
Ensuite je comprend que le MapReduce est composé d'un jobtracker et de plusieurs tasktracker. Le problème et que en lisant les articles ils en ressort plusieurs definition.
Exemple avec le jobtracker :
- definition 1 : le jobtracker est un composante du mapreduce qui decoupe des données et les envoient aux tasktrackers aux differents esclave d'un cluster.
-definition 2 :c’est un rôle hadoop qui se situe sur le namenode et qui est charger de lancer des tâches (à comprendre "operations de traitement") distribuées en coordonnant les esclaves. Il envoi ces taches aux tasktrackers qui travaillent en parallèle.
Qu'elle est la bonne definition ? la 1 ou la 2 ? le jobtracker fait quoi il découpe des données ou il découpe des tâches ? ou alors il fait les 2 ???
Meme en lisant la doc officielle j'ai du mal a comprendre comment MapReduce fonctionne parce qu'au debut de la doc on dit qu'il découpe des données et un peu plus bas on parle de tâches et je me perd totalement dans la compréhension de MapReduce.
Je sollicite donc votre aide pour m'aider a comprendre son fonctionnement. J'espere avoir été clair dans mes explications.
Merci à vous.
Partager