1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
|
my $FichierResulat = '/home/lenovo/Bureau/MesTravaux/Traitement_corpus/result2';
open( my $FhResultat, '>:utf8', $FichierResulat );
open(my $fh, "<:utf8", '/home/lenovo/Bureau/MesTravaux/Traitement_corpus/essai') or die "Failed to open file: $!\n";
#open(my $fh, "<:utf8", $directory) or die "Failed to open file: $!\n";
#open( my $FhResultat, '>:utf8', $FichierResulat ) or die "Failed to write file \n";
while(<$fh>){
#next if m/^$/;
$_ =~ s/\n/ /;
#remplacer plusieurs ! par un seul
$_ =~s/\!+/ /g;
#Enlever ; et le ,
$_ =~s/[;,:]/ /g;
$_ =~s/\*+/ /g;
#supprimer point d'interrogation en arabe
$_ =~s/\x{061F}/ /g;
#supprimer point virgule en arabe
$_ =~s/\x{066C}/ /g;
$_ =~s/\x{066B}/ /g;
$_ =~s/\x{060C}/ /g;
#supprimer les expressions regulieres
$_ =~s/\,//g;
$_ =~s/\;//g;
$_ =~s/\*//g;
$_ =~s/\-//g;
$_ =~ s/\_//g;
$_ =~s/\[//g;
$_ =~s/\]//g;
$_ =~s/\(//g;
$_ =~s/\)//g;
$_ =~s/\{//g;
$_ =~s/\}//g;
$_ =~s/\'//g;
#s/\"//g;
$_ =~s/\&//g;
$_ =~s/»//g;
$_ =~s/»//g;
$_ =~s/؛//g;
$_ =~s/\|//g;
$_ =~s/\\//g;
$_ =~s/\+//g;
$_ =~s/://g;
#supprimer les deux points
$_ =~s/\://g;
#remplacer plusieurs points par un seul
#$_ =~ s/\.+/ \. /g;
#$_ =~ s/\.+/ \. /g;
$_ =~s/\.+/ /g;
$_ =~s/ +/ /g;
$_ =~s/\/\s+/ /g;
#Supprimer toute combinaison d'espaces et tabulations
$_ =~s/[ \t]+/ /g;
#Remplacer plusieurs espaces par un seul
$_ =~s/ +/ /g;
#Supprimer les lignes vides
$_ =~ s/^\s+//g;
$_ =~ s/\n//g;
$_ =~ s/\n$/ /gs;
print $FhResultat "$_";
} |
Partager