IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

Parallelisation avec joblib


Sujet :

Calcul scientifique Python

  1. #1
    Membre confirmé
    Homme Profil pro
    Éternel universitaire
    Inscrit en
    Avril 2012
    Messages
    421
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Éternel universitaire

    Informations forums :
    Inscription : Avril 2012
    Messages : 421
    Points : 639
    Points
    639
    Par défaut Parallelisation avec joblib
    Bonjour,

    J'ai un module que j'aimerais paralléliser. Il me semblait que joblib serait le package qui me permettrait de faire ça le plus facile. Mais je rencontre des difficultés.

    Mon script
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    import os
    from joblib import Parallel, delayed
    import process_ro2_data as prd
     
    listStations = ["Berge","Reservoir","Foret_ouest","Foret_est","Foret_sol"]
    rawFileDir      =os.path.join("C:\\","Users","anthi182","Desktop","Data_for_automatization","Raw_data") 
    asciiOutDir     =os.path.join("C:\\","Users","anthi182","Desktop","Data_for_automatization","Ascii_data") 
    Parallel(n_jobs=2)(delayed(prd.convert_CSbinary_to_csv)(iStation,rawFileDir,asciiOutDir) for iStation in listStations)
    qui appelle le module suivant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    import os
    import re
    import pandas as pd
    import subprocess
    import shutil
    import fileinput
    from datetime import datetime as dt #TODO , timedelta as td
     
    def convert_CSbinary_to_csv(stationName,rawFileDir,asciiOutDir):
     
        #Find folders that match the pattern Ro2_YYYYMMDD
        listFieldCampains = [f for f in os.listdir(rawFileDir) if re.match(r'^Ro2_[0-9]{8}$', f)]
     
        for iFieldCampain in listFieldCampains:
     
            #Find folders that match the pattern Station_YYYYMMDD
            sationNameRegex=r'^' + stationName + r'_[0-9]{8}$'
            listDataCollection  = [f for f in os.listdir(os.path.join(rawFileDir,iFieldCampain)) if re.match(sationNameRegex, f)]
     
            for iDataCollection in listDataCollection:
                print(iDataCollection)
                for rawFile in os.listdir(os.path.join(rawFileDir,iFieldCampain,iDataCollection)):              
                    print('\t'+rawFile)  
     
                    inFile=os.path.join(rawFileDir,iFieldCampain,iDataCollection,rawFile)
                    outFile=os.path.join(asciiOutDir,stationName,rawFile)
     
                    # File type name handling           
                    if bool(re.search("ts_data_",rawFile)) | bool(re.search("_Time_Series_",rawFile)):
                        extension="_eddy.csv" 
                    elif bool(re.search("alerte",rawFile)):
                        extension="_alert.csv"         
                    elif bool(re.search("met30min",rawFile)) | bool(re.search("_Flux_CSIFormat_",rawFile)) | bool(re.search("flux",rawFile)):
                        extension="_slow.csv" 
                    elif bool(re.search("radiation",rawFile)) | bool(re.search("_Flux_Notes_",rawFile)):
                        extension="_slow2.csv"             
                    else:                           # .cr1 / .cr3 / sys_log files / Config_Setting_Notes / Flux_AmeriFluxFormat_12
                        shutil.copy(inFile,outFile) # TODO solve issue: file with same name will overwrite
                        continue
     
                    # Conversion from the Campbell binary file to csv format
                    # TODO check compatibility with unix and Wine
                    process=os.path.join(".\Bin","raw2ascii","csidft_convert.exe")
                    subprocess.call([process, inFile, outFile, 'ToA5'])
     
                    # Rename file according to date
                    fileContent=pd.read_csv(outFile, sep=',', index_col=None, skiprows=[0,2,3], nrows=1)
                    try:
                        fileStartTime=dt.strptime(fileContent.TIMESTAMP[0], "%Y-%m-%d %H:%M:%S")    # TIMESTAMP format for _alert.csv, _radiation.csv, and _met30min.csv
                    except:
                        fileStartTime=dt.strptime(fileContent.TIMESTAMP[0], "%Y-%m-%d %H:%M:%S.%f") # TIMESTAMP format for _eddy.csv file
                    newFileName=dt.strftime(fileStartTime,'%Y%m%d_%H%M')+extension
                    shutil.move(outFile,os.path.join(asciiOutDir,stationName,newFileName))
    Le module convert_CSbinary_to_csv sert à appeler un executable (csidft_convert.exe) et a mettre un peu d'ordre dans mes fichiers.
    Lorsque j'execute mon script, j'obtiens le message d'erreur suivant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    BrokenProcessPool: A task has failed to un-serialize. Please ensure that the arguments of the function are all picklable.
    Pourtant, toutes les entrées sont "pickable" selon le site référence, car ce sont des listes ou des chaines de caractères.

    Qu'est ce qui empêche la parallélisation ici ?

    Merci !

  2. #2
    Expert éminent

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 300
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 300
    Points : 6 780
    Points
    6 780
    Par défaut
    Salut,

    Tu peux expliquer cette ligne de code:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    Parallel(n_jobs=2)(delayed(prd.convert_CSbinary_to_csv)(iStation,rawFileDir,asciiOutDir) for iStation in listStations)
    ?

  3. #3
    Membre confirmé
    Homme Profil pro
    Éternel universitaire
    Inscrit en
    Avril 2012
    Messages
    421
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Éternel universitaire

    Informations forums :
    Inscription : Avril 2012
    Messages : 421
    Points : 639
    Points
    639
    Par défaut
    Ok problème résolu. C'est visiblement un bug connu qui vient d'un problème de compatibilité entre l'éditeur Spyder et Joblib https://github.com/spyder-ide/spyder/issues/2937. Lorsque j’exécute le code depuis un terminal, aucune erreur tout va bien.

    Citation Envoyé par VinsS Voir le message
    Salut,

    Tu peux expliquer cette ligne de code:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    Parallel(n_jobs=2)(delayed(prd.convert_CSbinary_to_csv)(iStation,rawFileDir,asciiOutDir) for iStation in listStations)
    ?
    C'est la syntaxe du package joblib pour appeler le module Parallel. Ici je demande de paralléliser sur deux cœurs la fonction prd.convert_CSbinary_to_csv qui prend en argument iStation, rawFileDir et asciiOutDir, et d'itérer sur les éléments de listStations

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Paralleliser 5 boucles imbriquées avec OpenMP
    Par grut211 dans le forum Fortran
    Réponses: 4
    Dernier message: 26/02/2015, 14h51
  2. Probleme gauss-seidel parallelise avec MPI
    Par leetimber5 dans le forum Threads & Processus
    Réponses: 1
    Dernier message: 21/01/2010, 18h49
  3. parallelisation avec Pthread
    Par sirerose dans le forum C++
    Réponses: 1
    Dernier message: 09/09/2008, 16h43
  4. paralleliser avec createprocess()
    Par druid dans le forum C++
    Réponses: 7
    Dernier message: 30/05/2006, 14h17
  5. Paralleliser les connexions avec DBI
    Par vodevil dans le forum SGBD
    Réponses: 2
    Dernier message: 26/12/2005, 19h19

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo