[os.walk] Optimisation du temps de traitement sur une grosse arborescence + filtre

**Alexiis** · 19/06/2017, 13h03

Bonjour à toutes à et à tous,

Je cherche à optimiser le temps de traitement d'une fonction qui me liste les chemins d'accès à des fichiers selon plusieurs conditions. Je précise que la fonction fait son job, mais est très longue car elle lit une arborescence d'environ 4500 éléments.

En gros je récupère les chemin d'accès si je trouve dans l'un des dossiers un ficher .LOG qui se termine par "_CODEINSEE", selon une liste de commune donnée (liste qui varie d'un vingtaine à 500 codes communes). Je récupère alors le chemin d'accès à un fichier .SHP dans un sous-dossier qui est avec ce fichier .LOG. Je stock ces chemins d'accès dans une liste lorsque validé.

chem : dossier de recherches avec sous dossiers (4500 élements)
listeCom : liste des codes INSEE

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
for dossier, sous_dossiers, fichiers in os.walk(chem):         
            for fichier in fichiers:
                for com in listeCom:
                    # si fichier log se terminant par code INSEE et ne contenant pas ZC => Go
                    if fichier.endswith('.LOG') and fichier.find('_'+ com)!= -1 and fichier.find('ZC')== -1 :
                            iti = dossier + "\Iti\Ft_ArcIti.shp"
                            #vérification
                            if os.path.isfile(iti):
                                listeIti.append(iti)
                            else:
                                lchemFake.append(iti)

Ca marche mais c'est long, quelqu’un aurait-il une piste?

**wiztricks** · 19/06/2017, 15h39

Salut,

4500 fichiers x 20 à 400 code INSEE = un certain nombre d'itérations à réduire.

Comme vous voulez récupérer les dossiers qui contiennent au moins un fichier intéressant, pas la peine de regarder tous les fichiers. Pour voir si le nom d'un fichier correspond à votre pattern, vous pouvez utiliser des regexp. Enfin, une fois le code INSEE extrait, il sera plus rapide de tester sa présence dans un set que d'itérer sur tous les éléments d'une liste.

Ce qui traduit en Python donnerait:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
import re
rg = r'^((?!ZC).)*_(\d{5}).LOG'
communes = set(listCom)
 
for dossier, sous_dossiers, fichiers in os.walk(chem): 
     for s in fichiers:
          match = re.match(rg, s)
          if match and match.groups()[1] in communes:
                # ajouter le dossier à la liste
                 break # et pas la peine de regarder les autres.

que je n'ai pas testé.

- W

**BufferBob** · 20/06/2017, 03h09

salut,

également puisqu'il est question de python 2.x, il est notoirement connu que os.walk() est lent, sous Python 2 il existe le module scandir() pour accélérer un peu les opérations sur le fs

**Alexiis** · 20/06/2017, 14h54

Bonjour,

Merci beaucoup à vous deux pour vos réponses,
J'ai testé sur un jeux de données :

Fonction Originale : 12 minutes
Méthode de Wiztricks : 8 minutes

J'ai tenté la proposition de BufferBob mais malheureusement la méthode scandir() n'est pas intégrée dans le Package Arcpy (module python d'ESRI) utilisé au sein de l'entreprise, et je ne peux pas installer de bibliothèques supplémentaires. Etant donné que je ne suis pas un expert je vous laisse quand même ma version python même si je doute que ça vous avance : (sys;version) 2.6.5 (r265:79096, Mar 19 2010, 21:48:26) [MSC v.1500 32 bit (Intel)]

En tout cas merci à vous deux, la méthode de W représente un gain important, je vais continuer à me renseigner sur les regexp que je connaissais pas.

[os.walk] Optimisation du temps de traitement sur une grosse arborescence + filtre [Python 2.X]

Python

Vue hybride

Discussions similaires

Partager

Partager