IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Probleme algorithmique trop longue l'incrémentation


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Nouveau candidat au Club
    Profil pro
    Inscrit en
    Février 2011
    Messages
    1
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2011
    Messages : 1
    Par défaut Probleme algorithmique trop longue l'incrémentation
    Bonjour à tous,
    En fait, j'ai effectué un algorithme qui tourne bien mais prend beaucoup de temps, et quand je dis beaucoup c'est une question d'heures!!!!
    Je voudrais l’améliorer car je compte le réutiliser.
    En fait, je possède 3 tables : tt7, tt4 et v
    tt7 possède 75000 éléments
    tt4 possède 5000 éléments
    et v possède 1378 colonnes 200 éléments, cependant les lignes contiennent beaucoup de "NA" et le nombre d’éléments non "NA" varie selon les colonnes.
    Je dois chercher les éléments de tt7 qui se trouvent dans tt4 en passant par v, car certains éléments de tt7 sont des sous-ensembles de tt4 (donc ils appartiennent à la même famille et chaque famille est représentée dans une colonne de v.
    Voici mon algorithme ; j'avoue il n'est pas terrible.
    j'utilise une table virtuelle s pour chaque occurrence et je compare ensuite avec tt4
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    h=1
    g=matrix(data=0,nrow=1,ncol=4)
    g=data.frame(g)
     
     
    for(k in 1 : length(tt7[,1]))
    {
     
     
    s=matrix(data=0,nrow=200,ncol=2)
    s=data.frame(s)
    for(j in 1 : 1378){
    p=length(levels(v[,j]))
    for (i in 1 : p){
     
    if(v[i,j]==tt7[k,2]  )
    {
    s[,1]=v[,j]
    s[,2]=tt7[k,1]
    }
    }
    }
     
    for(n in 1: length(s[,1]))
    {
    for (t in 1 : length (tt4[,1]))
    {
     
    if ( tt4[t,6]==s[n,1]  )
    {
    g[h,1]=tt4[t,1]
    g[h,2]=tt4[t,6]
    g[h,3]=s[n,2]
    g[h,4]=tt7[k,2]
    h=h+1
    }
     
    } 
    }
     }
    }
     
    }
    J'espere que j'ai bien expliqué et si quelqu'un pouvait m'aider svp, je lui serais reconnaissant ou même en discuter pour trouver une solution.
    merci beaucoup

  2. #2
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 059
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 059
    Par défaut
    Bonjour,

    Pour nous aider à mieux comprendre, un petit exemple du contenu de tt7, v et tt4 serait le bienvenu .
    Sinon, indentez votre code pour le rendre plus lisible.
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  3. #3
    Membre éclairé
    Homme Profil pro
    Chercheur en écologie
    Inscrit en
    Février 2011
    Messages
    43
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Chercheur en écologie

    Informations forums :
    Inscription : Février 2011
    Messages : 43
    Par défaut
    De manière générale, il vaut mieux utiliser des fonctions de la famille de apply pour traiter des matrices/tables. R est long (très long) en ce qui concerne les boucles for, et vu la taille de tes objets, ce n'est pas étonnant que ça prenne des heures avec des boucles imbriquées.

  4. #4
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Citation Envoyé par timpoi Voir le message
    De manière générale, il vaut mieux utiliser des fonctions de la famille de apply pour traiter des matrices/tables. R est long (très long) en ce qui concerne les boucles for, et vu la taille de tes objets, ce n'est pas étonnant que ça prenne des heures avec des boucles imbriquées.
    Il me semble avoir lu un article il y a quelques temps (impossible de remettre la main dessus grrrr ) qui disait qu'avec les nouvelles versions de R, à présent cela ne prenait pas plus de temps de passer par une boucle ou une fonction apply.
    Après, je ne sais plus s'il traitait de toutes les fonctions de cette famille... J'ai juste retrouvé ceci pour le moment : http://stackoverflow.com/questions/5...-for-loop-in-r.

    Si quelqu'un a plus d'infos à ce sujet, ça m'intéresse !
    Sinon, désolée pour le HS par rapport au poste initial


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  5. #5
    Membre éclairé
    Homme Profil pro
    Chercheur en écologie
    Inscrit en
    Février 2011
    Messages
    43
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Chercheur en écologie

    Informations forums :
    Inscription : Février 2011
    Messages : 43
    Par défaut
    Pour répondre à A.D.

    La vectorisation reste la manière la plus rapide de faire, puisque R est conçu comme ça. a[b==0] est la manière la plus rapide d'extraire certains éléments de a.

    Il y a aussi des cas ou des boucles for sont plus rapides que apply pour des petites données, mais le même programme avec des données plus importantes devient super long, et passer à apply fait gagner un temps monstre (on a eu le cas il y a peu au labo, sur un dataset de quelques millions de ligne à comparer et extraire, et les performances du code avec des for imbriquées se dégradaient très rapidement).

    Le problème de l'optimisation (et c'est le problème du post initial!), c'est qu'il faut mesurer précisément toutes les solutions. Si j'aime utiliser des apply, c'est aussi parce que on peut facilement les passer en parallèle avec snow et snowfall, ce qui pour peu qu'on aie une machine avec plusieurs proc sous la main, divise pas mal le temps d'exécution.

Discussions similaires

  1. Probleme de requête SQL trop longue
    Par piscou51000 dans le forum Requêtes
    Réponses: 4
    Dernier message: 13/02/2010, 19h06
  2. Paradox7 probleme ligne trop longue
    Par Bloodyroots dans le forum Bases de données
    Réponses: 2
    Dernier message: 30/08/2006, 06h33
  3. Erreur ORA-01704 : constante de chaine trop longue
    Par verrec_s dans le forum Oracle
    Réponses: 22
    Dernier message: 13/12/2004, 15h30
  4. [TP]Probleme de ligne trop longue
    Par poppels dans le forum Turbo Pascal
    Réponses: 4
    Dernier message: 24/09/2004, 06h36
  5. chaine trop longue pour envoyer en socket?
    Par jeje.r dans le forum C++Builder
    Réponses: 10
    Dernier message: 27/06/2003, 16h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo