Optimisation script python recherche documentaire

**pathelahi** · 25/11/2019, 22h37

Bonjour,

Je postule pour la première fois dans ce forum, en effet j'ai un souci avec mon script développé en python qui fonctionne bien mais est trop lent. J'ai cherché pas mal de moyens pour optimiser le code mais en vain. J'ai utilisé des threads pour paralléliser la recherche des fichiers dans les répertoires et utiliser des fonctions pour diminuer le nombre d'instruction mais toujours la même chose.

En faites mon script faits une recherche dans différents répertoires pour retrouver le fichier recherché ou les fichiers comportant le nom du fichiers recherché. Les différents répertoires indexés par la recherche sont au nombre de 6 et contiennent des sous répertoires qui contiennent des milliers de fichiers.

Merci d'avance

.

**fred1599** · 25/11/2019, 22h51

Bonsoir,

Pour ce genre de travail, python a fait beaucoup de boulot, mais pour cela il va falloir migrer au moins à la version 3.3

Dans ta situation, tu peux essayer de voir dans des modules tels que glob par exemple... Plein d'autres solutions existent mais pas pour ta version. Il faudra avec un peu de chance regarder du côté des modules fait maison, avec une glue en C/C++ mais faut pas trop espérer avoir mieux que les modules standards.

Après si la portabilité n'est pas importante voir du côté des systèmes si des commandes n'existent pas déjà pour faire ce genre de recherches et utiliser le module subprocess.

**pathelahi** · 25/11/2019, 23h23

Merci pour ta réponse, sinon ne pense tu pas que cette fonction glob ne fait pas la même chose de la module os.path et os.write.
J'ai également utilisé dans mon code le module subprocess pour faire des commande bash mais le résultat n'est pas du tout concluant.

**fred1599** · 25/11/2019, 23h52

Le plus simple est de tester, ça prend pas plus de quelques secondes. C'est bien documenté... On est bien d'accord qu'on recherche plus d'efficacité ? Si oui, il n'y a que le test chronométré qui peut donner des réponses.

P.S surpris qu'en Bash ça n'existe pas 🤨

**tyrtamos** · 26/11/2019, 08h03

Bonjour,

Sous Python 2, le module externe "scandir" (https://pypi.org/project/scandir/) apportait plus de rapidité aux recherches sur disque. Il a été intégré à Python à partir de la version 3.5 (=> os.scandir).

Sinon, je ne suis pas sûr que les threads apportent beaucoup d'avantages pour ces recherches, parce que le disque, lui, fera ses recherches en séquence. En tant que périphérique physique, il sera le "goulet d'étranglement". Si c'est critique, peut-être faudrait-il un disque SSD?

**lg_53** · 26/11/2019, 10h42

Perso, j'avais traiter ce problème différement. Avec un

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

find . -type f > list_of_files.txt

dans le terminal système (fonctionne sous linux, mac, et windows 10. Pour les windows versions antérieures je ne sais pas). Avec ca je créé un fichier qui contient tous les noms des fichiers du dossier courants.
Puis après je fait une recherche de chaine de caractère dans ce fichier.
L'avantage déjà c'est que si j'ai plusieurs recherche à faire, l'opération de construction de ce fichier n'est à faire qu'une seule fois.
Je n'ai pas mesuré le temps d'éxécution de cette technique, mais je pense qu'une fois le fichier créé, c'est plus rapide. Car au lieu de demander au disque dur l'accès à plein de petit fichier, vous demander un seul et unique accès à un gros fichier, contenant la synthèse de toute l'info dont vous avez besoin.
Si on considère l'étape de construction du fichier via le terminal, elle reste aussi surement plus rapide qu'en python.

Autre point : Vous devriiez profiler votre code (avec cProfile par exemple) pour savoir où est ce que vous dépenser votre temps. Si ça se trouve vous faites des regex ultra couteuse, et c'est ca qui vous plombe et non pas le grand nombre de fichier à traiter !

Optimisation script python recherche documentaire

Python

Vue hybride

Discussions similaires

Partager

Partager