Comparaison de fichiers volumineux

**wodel** · 24/10/2008, 20h07

Salut,

voila la petite histoire, j avait 2 fichiers, chacun contenait des noms d'utilisateurs plus quelques informations (chaque ligne etait de la forme "nom;prenom;info1;info2...etc")
il fallait faire une comparaison, ie prendre un nom du fichier1 et le chercher dans le fichier2, et s il exist récupérer les infos contenus dans fichier1 et fichier2 et les mettre dans fichier3.

au début j'utilisai les tableaux et les hashs pour cette comparaison (créer un tableau qui contient tous les noms du fichier1 ainsi de suite), ils sont maniables et faciles a utiliser, cependant la je doit faire la meme chose mais mes fichiers de données sont volumineux, l'un d'eux compte 52700 entrées, je ne me vois pas initialiser un tableau et un hash pareil

je me suis retourner alors vers les fichiers, mais le traitement est beaucoup plus lourd, pour chaque nom lu depuis le fichier1 il faut lire tout le fichier2.

y a t il un autre moyen en perl plus souple???

merci d'avance pour vos idées et conseils

**Jedai** · 24/10/2008, 22h21

D'une part 52700 entrées n'est pas excessif pour un hash du fichier2, je ne vois pas pourquoi tu aurais besoin d'un tableau pour le fichier1.

D'autre part, si tu n'as pas assez de RAM ou que les fichiers peuvent devenir encore plus gros, tu as deux solution :

Utiliser l'un des modules DBM pour mettre le hash sur le disque plutôt qu'en mémoire
Utiliser une vrai base de donnée (vraisemblablement la solution la plus propre et extensible à terme)

--
Jedaï

**thierry.chich** · 26/10/2008, 22h01

Sur le plan de l'algorithmie, le problème que tu as c'est qu'une comparaison de tes deux fichiers te coute n comparaisons de n entrées. Ca croit donc assez vite O(n^2). La technique consiste donc à faire un tri sur les deux fichiers (O(n*logn)), et après tu compares ligne à ligne (O(n)).

Tu t'épargnes le travail en chargeant les deux fichiers dans des hash. Et c'est probablement encore plus efficace.

**wodel** · 26/10/2008, 23h21

Salut,

merci pour les réponses...

le probléme c'est que je dois comparer avec toutes entrées parce que ce n'est pas une comparaison mot par mot (celle-la elle a été faite), la comparaison utilisée fait appel à un algorithme qui est un mélange entre le similar_text et le soundex, c'est pour traiter les incohérences dans les noms, trouver les fautes d'othographes ou bien les écritures différentes d'un meme nom.

Comparaison de fichiers volumineux

Langage Perl

Discussions similaires

Partager

Partager