Parallélisation R: remplir une matrice de résultat

**joyeux_lapin13** · 04/05/2011, 11h03

Bonjour, depuis peu je me suis mis à reprendre mes codes classiques pour tous les paralléliser sur le serveur de ma boîte.

En gros ce que font mes programmes c'est pour chaque itération i, remplir à la ligne i des colonnes contenant des informations comme le nom des variables en cours, la taille de population, les résultats pour différentes méthodes d'analyse multivariée.

Finalement mon code se résume en une boucle for que j'ai transformé en foreach pour accéder au mode parallélisé (je suis bien sous Revolution R).

Mais voilà, j'ai un souci pour remplir ma fameuse matrice de résultat, en fin de programme j'ai que des 0 (soit l'état originel de ma matrice) et j'ai téléchargé le manuel ParallelR Lite User's Guide version 3.2 et j'ai l'impression que sous parallélisation il faut reconsidérer totalement cette approche, ce qui m'étonne un peu étant donné que je trouvais naturel que pour une table de données vide à n lignes quand i varie entre 1 et n et bien les résultats calculés à l'étape i étaient insérés à la ligne i du tableau. Et puis je suis persuadé que les developpeurs ont mis en place le parallélisme sous R en se doutant bien qu'une majeure partie de programme se base sur ce type de squelette.

Un exemple simplifié et totalement représentatif de la structure de mes programmes:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
library(foreach)
library(doMC)
registerDoMC(8)
 
Resultat = matrix(0,nbCombi,5)
foreach(i = nbCombi, .combine = c) %dopar%
{ 
Resultat[i,1] = "variables"
Resultat[i,2] = population
Resultat[i,3] = Reg_log
Resultat[i,4] = Analyse_discrim
Resultat[i,5] = SVM
}

En vous remerciant d'avance pour votre intérêt à mon problème.

**pitipoisson** · 06/05/2011, 10h59

Bonjour,

Je relève plusieurs erreurs dans ton code :

À l'instar des fonctions de la famille des apply et à l'inverse des for, while, etc., foreach retourne une valeur. C'est d'ailleurs bien pour ça que tu définis une fonction de "combinaison" des résultats (
Code : Sélectionner tout - Visualiser dans une fenêtre à part
```
.combine = c
```
dans ton exemple)
Comme pour les apply & co. cette fonction travaille dans un nouvel environnement, et donc des assignations de valeurs sur des objets de ton environnement global ne fonctionneront qu'avec des assignations globales (ou assign avec l'environnement qui va bien en argument)... perso je ne m'y risquerais pas, ne sachant pas ce que ça peut donner sur du travail en parallèle.
foreach doit prendre en argument une séquence ou bien un "itérateur" (tel que défini par le package). De ce que je comprends de ton exemple, tu lui passes un simple nombre pour i => une seule boucle !

Voici donc comment je procèderais :

si tu souhaites vraiment une sortie sous fomre de matrice :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
Resultat <- foreach(i = icount(nbCombi), .combine = rbind) %dopar%
{
    ## Calcul des différentes variables à mettre ici j'imagine...

    ## Résultat retourné sous forme de matrice (rbind sur des vecteurs) :
    c(C1="variables", C2=population, C3=Reg_log, C4=Analyse_discrim, C5=SVM)
}

sinon (différents types de données) je te recommande une sortie en data.frame :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
Resultat <- foreach(i = icount(nbCombi), .combine = rbind) %dopar%
{
    ## Calcul des différentes variables à mettre ici j'imagine...

    ## Résultat retourné sous forme de data.frame :
    data.frame(C1="variables", C2=population, C3=Reg_log, C4=Analyse_discrim, C5=SVM)
}

Tu noteras :

que "Resultat" n'a plus besoin d'être pré-défini, c'est la sortie de foreach.
l'utilisation d'un itérateur icount pour i (tu devrais également pouvoir utiliser 1:nbCombi ou un équivalent).
l'utilisation de rbind comme fonction d'agrégation, puisque l'on souhaite voir les résultats de chaque itération sur une ligne.

Petite remarque au passage... il est dit dans la documentation du package que l'utilisation de foreach n'est intéressante que lorsque chaque itération prend un temps considérable (ordre de grandeur de la seconde ou >). Dans le cas contraire, cette méthode risque d'être moins efficace que les traditionnelles méthodes de vectorisation et même que des boucles for !

**joyeux_lapin13** · 06/05/2011, 11h14

Salut pitipoissin et merci pour ton intérêt à mon topic.

En fait j'avais trouvé la solution hier aprés ya voir passé une grosse journée, comme tu l'as bien compris je suis encore de la vieille école et j'utilise pas du tout apply dans mes programmes lol (je sais c'est un tord mais le manque de temps...

).

En tout cas c'est agréable de croiser un autre français qui s'y connait en parallélisation (sur un autre forum j'ai eu le plaisir de croiser un débutant un peu plus avancé que moi sur ce thème)! le manque d'infos sur la parallélisation est flagrante, et il m'a fallu une bonne journée pour tomber sur le package snow qui simplifie complètement le lancement des coeurs.

Encore merci à toi, ta solution m'a éclairci un peu plus les idées sur comment penser les programmes pour pouvoir les paralléliser désormais!

**pitipoisson** · 06/05/2011, 14h37

Envoyé par joyeux_lapin13

En tout cas c'est agréable de croiser un autre français qui s'y connait en parallélisation (sur un autre forum j'ai eu le plaisir de croiser un débutant un peu plus avancé que moi sur ce thème)! le manque d'infos sur la parallélisation est flagrante, et il m'a fallu une bonne journée pour tomber sur le package snow qui simplifie complètement le lancement des coeurs.

Houlà, je suis loin de m'y connaître !
J'avais juste regardé rapidement ce qui se faisait dans le domaine et je commence à bien m'y retrouver dans la philosophie de programmation R. Mais travaillant sous Windows (un peu contre mon gré), je calais jusque là sur l'utilisation de plusieurs cœurs... Merci pour le tuyau "snow", ça a l'air de marcher du tonnerre

PS. Je t'encourage vraiment à te familiariser avec les [tlsm...]apply, c'est vraiment plus efficace que les boucles.

**joyeux_lapin13** · 24/05/2011, 12h08

Plutot que de créer un nouveau thread je vais me resservir de celui de base, surtout que ma nouvelle problématique coïncide avec le thème!

En fait je cherche maintenant à paralléliser dans mes itérations qui tournent en parallèle! si ma première boucle foreach permet de traiter plusieurs combinaisons en même temps, j'aimerais en faire une nouvelle qui permet de traiter les méthodes de modélisation en même temps.

Voici l'idée avec ce que j'ai fait pour le moment (pitipoisson retrouvera le lien avec l'un de mes récents topics en plus!), à noter que j'ai simplifié/littéralisé au plus la syntaxe

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
 
library(doSNOW)
cl <- makeCluster(4, "SOCK") 
registerDoSNOW(cl)
clusterCall(cl, function() library(doSNOW))
clusterCall(cl, function() library(Reg_log))
clusterCall(cl, function() library(SVM))
clusterCall(cl, function() library(Analyse_discrim))
 
Resultat = 0
ListeCl <- vector(mode = "list", length = nbCombi) 
Resultat = foreach(i = nbCombi, .combine = rbind) %dopar%
{ 
      ListeCl[[i]] <- makeCluster(2, "SOCK") 
      registerDoSNOW(ListeCl[[i]])
      clusterCall(ListeCl[[i]], function() library(Reg_log))
      clusterCall(ListeCl[[i]], function() library(SVM))
      clusterCall(cl, function() library(Analyse_discrim))
      Model = foreach(j = 1:3, .combine = c) %dopar%
      {
             Model = methode_j
       }
       Resultat = Model
}

EDIT: pas mal j'ai oublié de mettre mon problème.... bref! En résumé... ça marche pas, il a l'air de traiter correctement pendant un petit moment puis aprés il s'arrête et me met comme erreur:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
Erreur dans checkForRemoteErrors(val) : 
  152 nodes produced errors; first error: impossible d'ouvrir la connexion
Calls: Parallel_ma_fonction ... clusterApplyLB -> dynamicClusterApply -> checkForRemoteErrors

Je pense qu'il y a une astuce que j'ai zappé... quelqu'un a-t'il déjà eu ce type de manoeuvre à faire et aurait des conseils à me donner?

**joyeux_lapin13** · 26/05/2011, 15h03

Bon aprés illumination je viens de me rendre compte qu'il suffisait juste de mettre un foreach sans pour autant devoir déclarer de nouveaux cores...

Autant pour moi

Parallélisation R: remplir une matrice de résultat

R

Vue hybride

Discussions similaires

Partager

Partager