Pb de 'out of memory' lors de traitements de fichiers

**DelphLaga** · 21/03/2008, 10h41

Bonjour,
J'ai mis en place un programme perl permettant d'effectuer un certains nombre d'opération sur un fichier .txt (taille 2500 Ko). Ce programme permet :
- de rechercher les phrases identiques,
- de faire remonter les 10 plus grandes ((en nombre de caractères) phrases
- de faire remonter l'absence de certains caractères
- de compter le nombre de tabulation
Pour l'ensemble de ces traitements, il y a de nombreuses boucles.
Lorsque je fait tourner ce programme sur un fichier d'environ 800 KO, le traitement est un peu long mais il est correctement terminé.
Est ce que quelqu'un pourrait me donner une piste vers laquelle je pourrais me tourner pour rendre ce traitement réalisable sur n'importe quelle taille de fichier ?
Merci d'avance
PS : en PJ se trouve le programme en question.

**PerlPicker** · 21/03/2008, 22h12

Bonjour,

Quelques conseils après avoir jeté un oeil à ton programme:

Tu gardes beaucoup d'informations en mémoire qui ne sont pas indispensables. Par exemple, tu devrais écrire tes logs de suite et ne pas les mettre dans des tableaux.

Tu utilises beaucoup de tableaux et ce n'est pas la structure la plus adaptée pour trouver des informations. des tables de hash vont être plus efficaces par exemple pour identifier les doublons.

Ton algorithme pour trouver les 10 premières chaines est trop coûteux (stocker dans un tableau et trier à la fin). Tu ne cherches que les 10 premiers, tu n'as pas besoin de trier tout le fichier. Pour cela tu dois utiliser un tableau trié avec les 10 premiers qui sera vide au départ et à chaque ligne tu regardes si la nouvelle ligne rentre dans les 10 premiers.

Je n'ai pas regardé en détail mais j'ai l'impression que la totalité de tes analyses peuvent se faire sans avoir le fichier global, en ligne par ligne, sauf bien entendu la détection de doublons. Pour cela, utilise une table de hash et si elle devient trop grosse, il est possible de la stocker dans un fichier au lieu de la mettre en mémoire (reviens vers le groupe si tu es dans ce cas)

Un petit truc pour finir: le code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part