1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
|
#! /usr/bin/perl
#use strict;
#use warnings;
use XML::Simple;
use Encode;
use autodie;
use feature 'unicode_strings';
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
use XML::Simple;
my $href = shift;
my $data = XMLin(shift);
foreach(@{$data->{mot}}) {
$href->{$_->{'synonyme'}} = $_->{'etiquette'};
}
}
my %syn;
parseBase(\%syn, 'BaseEtiquettes.xml');
open my $fh, "<:utf8", 'in.txt';
open my $fh1, ">:utf8", 'resultat.txt';
my $linenum = 0;
foreach(<$fh> ) {
# Si BOM initiale
unless ($linenum++ and /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}
my @words = split /\b/;
foreach (@words) {
print $fh1 $_;
# si le mot figure dans la liste des synonymes
if ($syn{$_}) {
print $fh1 " <$syn{$_}> ";
}
}
}
close $fh1;
close $fh; |
Partager