extraire la différence entre deux larges fichiers

**gwissem** · 28/11/2008, 15h16

Bonjour,

Je n'ai pas su où poster mon message alors j'ai posté ici.

J'ai un fichier de référence F1 ~4millions de lignes et un fichier de base F2 ~500 000 lignes de la forme : champ1,champ2,champ3...

Je voudrai extraire de F2 les lignes qui n'existent pas dans F1 et les mettre dans un autre fichier (n'existent pas ça veut dire que champ1 de F2 ne correspond à champ2 dans F1). Ceci implique que je dois, pour chaque ligne de F2, parcourir F1 et vérifier F2{champ1} == F1{champ2}

Voici mon problème : le script bouffe énormément de ressource CPU, RAM et temps !!! et je voudrai avoir une autre solution plus optimisée que le parcours imbriqué de deux fichiers volumineux (ligne par ligne ou chargés dans deux hashs...c'est toujours galère) .
Si quelqu'un aurait une autre idée elle est la bienvenue.

Merci.

**Jedai** · 28/11/2008, 15h24

Données volumineuses, besoin d'un index, recherche rapide d'une clé... Les bases de données sont faites pour ça ! Ton fichier de référence devrait être entré dans une BDD.

--
Jedaï

**gwissem** · 28/11/2008, 15h32

Bon, j'avoue que j'ai un petit peut omi quleques détails...

mon fichier F1 en fait je l'exporte d'une table(clé, valeur) et je cherche 'valeur' dedans à partir de F2 pour voir si elle a une clé ou pas et extraire la liste des valeurs qui n'ont pas de clé...
j'ai évité de charger F2 dans une table temporaire et faire une jointure SQL car ça me plante carrément le serveur...alors je me suis tourné vers les fichiers.

PS : 'valeur' est une chaine de caractères et c'est de la follie d'indexer un champ varchar dans une table de cette taille !

**Jedai** · 28/11/2008, 17h03

Envoyé par gwissem

j'ai évité de charger F2 dans une table temporaire et faire une jointure SQL car ça me plante carrément le serveur...alors je me suis tourné vers les fichiers.

Tu ne pourrais pas simplement découper F2 en petits bouts ? Ou au pire procéder ligne par ligne ?

Sinon une solution pour améliorer les choses serait d'utiliser un Bloom filter pour diminuer le nombre de requêtes nécessaire (avec le module Bloom::Filter par exemple), ça marchera mieux si tu as une majorité d'éléments de F2 à supprimer par contre, si tu n'en as qu'un nombre très limité, ça n'aidera pas beaucoup (sauf s'il est acceptable de conserver quelques faux positifs).

--
Jedaï

**gwissem** · 01/12/2008, 10h55

Bloom filter m'aurait bien résolu mon problème s'il n'y avait pas ces faux positifs !

Finalement je vais découper mon fichier de petits blocs, je voulais éviter cette solution car ça me fera n itérations * (n-1) blocs de trop...mais bon, entre un script qui ne marche et un script qui marche..mon choix est vite fait

je laisserai le luxe d'optimiser à plus tard lool

Merci pour ton aide en tout cas

**kiki91** · 03/12/2008, 23h51

pour imprimer les ligne commune de 2 fichier en uniligne :

perl -ne 'print if ($seen{$_} .=@ARGV) =~ /10$/' fichier1 fichier2

Merci a Randal Schwartz

pour l'inverse remplacé le if par unless devrais marcher

**gwissem** · 11/12/2008, 17h09

trop génial cette commande ! ça me facilite la vie

Merci infiniment à tout le monde, affaire résolue !

extraire la différence entre deux larges fichiers

Programmation et administration système Perl

Vue hybride

Discussions similaires

Partager

Partager