Probleme algorithmique trop longue l'incrémentation

**gabagi** · 03/08/2011, 12h49

Bonjour à tous,
En fait, j'ai effectué un algorithme qui tourne bien mais prend beaucoup de temps, et quand je dis beaucoup c'est une question d'heures!!!!
Je voudrais l’améliorer car je compte le réutiliser.
En fait, je possède 3 tables : tt7, tt4 et v
tt7 possède 75000 éléments
tt4 possède 5000 éléments
et v possède 1378 colonnes 200 éléments, cependant les lignes contiennent beaucoup de "NA" et le nombre d’éléments non "NA" varie selon les colonnes.
Je dois chercher les éléments de tt7 qui se trouvent dans tt4 en passant par v, car certains éléments de tt7 sont des sous-ensembles de tt4 (donc ils appartiennent à la même famille et chaque famille est représentée dans une colonne de v.
Voici mon algorithme ; j'avoue il n'est pas terrible.
j'utilise une table virtuelle s pour chaque occurrence et je compare ensuite avec tt4

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
h=1
g=matrix(data=0,nrow=1,ncol=4)
g=data.frame(g)
 
 
for(k in 1 : length(tt7[,1]))
{
 
 
s=matrix(data=0,nrow=200,ncol=2)
s=data.frame(s)
for(j in 1 : 1378){
p=length(levels(v[,j]))
for (i in 1 : p){
 
if(v[i,j]==tt7[k,2]  )
{
s[,1]=v[,j]
s[,2]=tt7[k,1]
}
}
}
 
for(n in 1: length(s[,1]))
{
for (t in 1 : length (tt4[,1]))
{
 
if ( tt4[t,6]==s[n,1]  )
{
g[h,1]=tt4[t,1]
g[h,2]=tt4[t,6]
g[h,3]=s[n,2]
g[h,4]=tt7[k,2]
h=h+1
}
 
} 
}
 }
}
 
}

J'espere que j'ai bien expliqué et si quelqu'un pouvait m'aider svp, je lui serais reconnaissant ou même en discuter pour trouver une solution.
merci beaucoup

**ced** · 03/08/2011, 13h03

Bonjour,

Pour nous aider à mieux comprendre, un petit exemple du contenu de tt7, v et tt4 serait le bienvenu

.
Sinon, indentez votre code pour le rendre plus lisible.

**timpoi** · 03/08/2011, 17h35

De manière générale, il vaut mieux utiliser des fonctions de la famille de apply pour traiter des matrices/tables. R est long (très long) en ce qui concerne les boucles for, et vu la taille de tes objets, ce n'est pas étonnant que ça prenne des heures avec des boucles imbriquées.

**A. D.** · 03/08/2011, 18h18

Bonjour,

Envoyé par timpoi

De manière générale, il vaut mieux utiliser des fonctions de la famille de apply pour traiter des matrices/tables. R est long (très long) en ce qui concerne les boucles for, et vu la taille de tes objets, ce n'est pas étonnant que ça prenne des heures avec des boucles imbriquées.

Il me semble avoir lu un article il y a quelques temps (impossible de remettre la main dessus grrrr

) qui disait qu'avec les nouvelles versions de R, à présent cela ne prenait pas plus de temps de passer par une boucle ou une fonction apply.
Après, je ne sais plus s'il traitait de toutes les fonctions de cette famille... J'ai juste retrouvé ceci pour le moment : http://stackoverflow.com/questions/5...-for-loop-in-r.

Si quelqu'un a plus d'infos à ce sujet, ça m'intéresse !
Sinon, désolée pour le HS par rapport au poste initial

Cordialement,

A.D.

**timpoi** · 03/08/2011, 18h27

Pour répondre à A.D.

La vectorisation reste la manière la plus rapide de faire, puisque R est conçu comme ça. a[b==0] est la manière la plus rapide d'extraire certains éléments de a.

Il y a aussi des cas ou des boucles for sont plus rapides que apply pour des petites données, mais le même programme avec des données plus importantes devient super long, et passer à apply fait gagner un temps monstre (on a eu le cas il y a peu au labo, sur un dataset de quelques millions de ligne à comparer et extraire, et les performances du code avec des for imbriquées se dégradaient très rapidement).

Le problème de l'optimisation (et c'est le problème du post initial!), c'est qu'il faut mesurer précisément toutes les solutions. Si j'aime utiliser des apply, c'est aussi parce que on peut facilement les passer en parallèle avec snow et snowfall, ce qui pour peu qu'on aie une machine avec plusieurs proc sous la main, divise pas mal le temps d'exécution.

Probleme algorithmique trop longue l'incrémentation

R

Vue hybride

Discussions similaires

Partager

Partager