Différence entre deux fichiers

**Celelibi** · 26/04/2006, 03h23

Bonjour,

J'ai deux fichiers A et B et je voudrais récupérer toutes les lignes de A qui ne sont pas dans B.
Le problème est assez simple à priori, mais pourtant je ne trouve pas de moyen plus simple que ça pour le faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
open A, "<", "A";
open B, "<", "B";
 
my $a;
my $b;
 
$a = <A>;
$b = <B>;
 
while ($a && $b) {
  print $a if ($b gt $a);
  if ($a lt $b)
    $a = <A>;
  elseif ($a gt $b)
    $b = <B>;
  elseif ($a eq $b) {
    $a = <A>;
    $b = <B>;
  }
}

J'ai pas testé mais ça doit être ça (quoi que... si on arrive à la fin de B avant A).
Ça suppose que les listes soient triés et sans doublons.

Bref, je me demande juste si il n'y a pas un moyen plus simple de faire ça.

Merci d'avance.

**Jedai** · 26/04/2006, 03h37

A part les petites erreurs, il n'y a pas de procédé plus rapide, sachant que les deux fichiers sont déjà triés.
Maintenant il y a une technique plus courte à écrire, et qui marche pour des fichiers quelconques :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
open my $filter, '<', 'B' or die "$!\n";
my %h;
@h{<$filter>} = ();
 
open my $data, '<', 'A' or die "$!\n";
print (grep {not exists $h{$_}} <$data>);

Pour cette méthode, il ne faut pas que les fichiers soient trop gros, bien qu'on puisse s'accomoder d'un fichier "data" très gros, pourvu que le filtre soit de taille raisonnable (limite vers les millions de lignes, dépendante de la taille de la RAM), et qu'on remplace le grep par une boucle while().
--
Jedaï

**Celelibi** · 26/04/2006, 04h42

Québecois ou insomniaque ?

C'est une technique très intéressante, j'étais loin d'y penser.
J'étais plutôt parti sur quelque chose qu'on écrirait ainsi en php :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
$a = file("A");
$b = file("B");
$c = array_diff($a, $b);

Ce code php charge les fichiers A et B lignes par ligne dans les tableaux $a et $b, puis array_diff fait tout le boulot.

Ça m'étonnerait qu'il n'y ait pas de syntaxe équivalente en perl, car si je ne m'abuse perl à pour vocation principale le traitement de fichiers texte.

Edit : Je l'ai pas précisé, mais en fait je cherche à apprendre à coder réellement en perl, et non en perl C-isé.

**Jedai** · 26/04/2006, 13h49

C'est à dire que le core de Perl ne doit pas être aussi enflé que le core de PHP... Ce array_diff est facile à coder en deux lignes et pas très utilisé (il y a des modules comme Array, Set::Scalar ou Set::Light qui le propose).

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
sub array_diff {
  my ($a, $b) = @_;
  my %h;
  @h{@$b} = ();
  return grep {not exists $h{$_}} @$a;
}

Il est très facile de faire union et intersection également :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
sub union {
  my( $a, $b ) = @_;
  my %h;
  return grep {not $h{$_}++} @$a, @$b;
}
 
sub intersection {
  my( $a, $b ) = @_;
  my %h;
  return grep {$h{$_}++ == 1} @$a, @$b;
}

--
Jedaï

**Celelibi** · 26/04/2006, 17h36

Héhé, merci Jedai. J'ai cherché un peu les modules avec les noms que tu as donné, et voilà ce que ça donne.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
use Tie::File;
use Set::Object;
 
tie my @A, "Tie::File", "A";
tie my @B, "Tie::File", "B";
 
my $a = Set::Object->new(@A);
$a->remove(@B);

C'est un peu plus long que ce que tu avais proposé au début, mais je trouve que ça fait moins bidouille.

Mais je regrette quand même que la procédure pour mettre un fichier dans un tableau soit pas plus simple.
Et puis j'aurais bien utilisé Set::Light, mais je n'ai trouvé que Set::Object dans les packages debian.

En tout cas merci pour tout.

Différence entre deux fichiers

Langage Perl

Discussions similaires

Partager

Partager