l'arabe et Perl

**VinnieMc** · 08/03/2006, 23h24

Bonjour, je désirerais traiter des textes contenant du français et de l'arabe avec Perl,mon but serait d'extraire tout le texte arabe du fichier source et de l'envoyer dans un autre fichier.
Mais je n'y arrive pas; j'utilise une expression régulière avec l' équivalent de [a-z] pour l'arabe, mais le fichier dans lequel je dois récupérer le texte arabe reste désespérément vide;
Pour qui ceux me conseillerais d'analyer la struture du texte et de repérer la position du texte arabe, pour en suite developper une regexp pour décrire le formattage, et bien malheureusement le texte n'a aucune structure.
Voilà mon code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#!C:\perl\bin\perl.exe -w 
 
use strict; 
use utf8;
 
open(LIRE,"source.txt") || die ("Erreur d'ouverture de $0") ;
 
open(ECRIRE,">texte_arabe.txt") || die ("Erreur de creation de $0") ;
 
while (<LIRE>) {
 
chomp($_);
 
$_ =~ s/\s+/ /g;
 
next if $_ =~ m/^$/;
 
if ($_ =~ m/([\x{0600}-\x{06FF}])/g) {print (ECRIRE "$1\n");};
 
};
 
close(LIRE);
 
close(ECRIRE);

Si qqn pouvait m'aider ou m'indiquer où je pourrais trouver un didacticiel traitant de l'arabe et Perl j'apprécierais énormément.
Merci d'avance.

**Jedai** · 09/03/2006, 08h46

A partir de Perl 5.8, 'use utf8;' n'a plus d'utilité autre que de signaler que le script lui-même est écrit en utf8. Pour régler ton problème, commence par essayer d'ouvrir le fichier en mode utf8 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
open(LIRE, '<:utf8', "source.txt") || die ("Erreur d'ouverture de $0") ;
 
open(ECRIRE,'>:utf8', "texte_arabe.txt") || die ("Erreur de creation de $0") ;

Bonne chance.
--
Jedaï

**VinnieMc** · 09/03/2006, 12h51

Merci infiniment Jedai ça marche.

l'arabe et Perl

Modules Perl

Vue hybride

Discussions similaires

Partager

Partager