MapReduce du règles d'association

**Imene MI** · 08/11/2015, 21h40

Bonjour à tous,
je cherche une implémentation de l'algorithme apriori sur mapreduce reduce sous le langage R tel que le map calcule les itemset fréquent et le reduce extraire les règle à partir de ces itemset fréquent. J'ai fait beaucoup de recherche et j'arrive pas à trouver une solution.
pouvez vous m'aider svp.

**bordi** · 09/11/2015, 10h14

il faudrait plus d'info sur ce que vous voulez faire,

le mapper est la pour filtrer les données en entrée et organiser les données selon une clé en sortie, le reducer pour agréger les données selon la clé de regroupement, chaque ligne d'un fichier est envoyé à une entrée du mapper qui lui meme peut envoyer au reducer.
il peut y avoir des dizaines,centaines mapper/reducer pour le parallélisme de traitement selon les capacités du cluster et des limitations.

un mapper peut très bien ne pas avoir de reducer, alors il ne fera que filtre ou du calcul

voila un exemple d'approche, voir la transposition en R

http://eric.univ-lyon2.fr/~gt-fdc/jo...2013/malek.pdf

**Imene MI** · 09/11/2015, 18h57

Envoyé par bordi

il faudrait plus d'info sur ce que vous voulez faire,

Bonjour,

Merci pour votre réponse

Supposons que j'ai initialement un table de transaction immense et je découpe ma table horizontalement, je donne à chaque mapper une partie de la table pour me calculer ls itemset fréquents à partir d'un seuil donnée, donc la sortie du mapper sera le couple : itemset fréquent =key , support( itemset fréquent)=value

le reducer nous permettons d'extraire les règles d'associations à partir des itemset fréquent calculer par le mapper, et valider ces règles selon une confiance bien précis

**bordi** · 10/11/2015, 08h14

On peut voir un extrait de l'organisation des données de votre dataset ?

ce que vous pouvez faire, c'est d'abord de faire un micro maquette pour vérifier que votre implémentation
fonctionne indépendamment du map reduce hadoop avec de simple fonctions, en respectant les paramètres.
l'avantage et que cela fait gagner du temps de dev, l'execution d'un vrai map reduce peut durer plusieurs minutes
ce n'est pas agréable, une fois le contenu au point, ce n'est plus qu'une intégration.

une boucle fera appel à ces fonctions pour émuler les fonctions mapper reducer, une fois au point,
transposer et adapter l'implémentation dans les mapper et reducer hadoop selon l'exigence des interfaces hadoop.

genre en pseudo code) à adapter selon les exigences syntaxique du langage
for (i=0;i<dataset.length;i++) {
line=dataset[i;];
ouputMapper=mapper(line);
afficheMapper(ouputMapper);
ouputReducer=reducer(ouputMapper);
afficheReducer(outputReducer);
}

Maintenant si c'est algorithme lui même c'est plus du domaine des statistiques avec R dans le cadre du machine learning, pas de l'hadoop , faut que je prenne du temps pour regarder, je jetterai un oeil plus longuement demain si je dispose de temps.

edit!
j'ai vu un projet python qui utilise une implementation apriori pour itemset fréquent, qui peut etre une base d'implementation pour R, puis pour map reduce

http://nullege.com/codes/show/src@l@...apriori/python

il faut analyser l'implementation des scripts py et transposer en R, si cela convient

test_freq_item_algos.py
apriori.py
fptree.py

http://worldcomp-proceedings.com/proc/p2012/PDP7948.pdf

MapReduce du règles d'association

Big Data

Discussions similaires

Partager

Partager