expression régulière avec perl

**Ftina** · 18/01/2017, 15h30

Bonjour à tous ,

j'ai le code suivant qui permet de convertir un text en un fichier xml ,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#!/usr/bin/env perl
    use strict;
    use warnings;
    use autodie;
 
 
open(my $fh, "<:utf8", 'input') or die "Failed to open file: $!\n";
 
open my $fh1, ">:utf8", 'output.xml';
 
 
    my ($entry, $gloss, $exemple);
    while (<$fh> ) {
        chop;
     if (/^\(([^)]+)\)([^{]*)(\{(.*)\})?$/)  {
 
        print_stuff($entry, $gloss, $exemple);
        ($entry, $gloss, $exemple) = ($1, $2, $4);
        next;
        }
 
        if (/^([^{]+)(\{(.*)\})?$/)  {
        $gloss .= $1;
        $exemple .= $3?$3:"";
        next;
        }
 
        if (/^\{(.+)\}$/)  {
        $exemple .= $1;
        next;
        }
    }
    print_stuff($entry, $gloss, $exemple);
    close $fh1;
    close $fh;
 
    sub print_stuff {
        my ($entry, $gloss, $exemple) = (shift, shift, shift);
        return unless($entry);
        print $fh1 "<entry form=\"$entry\">\n";
        print $fh1 "\t<defs>\n";
        print $fh1 "\t\t<gloss>$gloss</gloss>\n";
        print $fh1 "\t\t<exemple>$exemple</exemple>\n" if ($exemple);
        print $fh1 "\t</defs>\n";
        print $fh1 "</entry>\n\n\n";
    }

par exemple pour la ligne suivante:

(الْبَين) الْوَاضِح والطلق اللِّسَان الفصيح (ج) أبيناء وبيناء وأبيان

la sortie est :

Code xml :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
<entry form="الْبَين">
	<defs>
		<gloss> الْوَاضِح والطلق اللِّسَان الفصيح (ج) أبيناء وبيناء وأبيان</gloss>
	</defs>
</entry>

je veux modifier l'expression régulière pour afficher seulement : s'arreter lorsqu'il y a une " ("

Envoyé par xml

<entry form="الْبَين">
<defs>
<gloss> الْوَاضِح والطلق اللِّسَان الفصيح </gloss>
</defs>
</entry>

quelqu'un peut m'aider ?

**Lolo78** · 18/01/2017, 18h59

Bonjour,,
DSL, mais je n'arrive pas à faire le lien entre ton texte en arabe (je suppose que c'est de l'arabe) et le fichier XML résultat en points de code. Du coup, je ne comprends pas vraiment ta question.

Deux points me viennent cependant à l'esprit:
- si tu veux t'arrêter à une première parenthèse, tu devrais consulter la documentation sur les quantificateurs gourmands et non gourmands (ou frugaux), c'est peut-être ce dont tu as besoin.
- Les regex examinent normalement le texte source de gauche à droite, je ne sais pas ce qui se passe avec une langue écrite de droite à gauche.

**Ftina** · 18/01/2017, 21h14

comme vous avez dit je veux m'arreter à la première parenthèse sur la meme ligne

**dmganges** · 19/01/2017, 02h00

Bonjour,
D'abord je ne maîtrise pas l'arabe

Ensuite je ne te fais pas un dessin sur la gestion des caractères arabes dans les éditeurs de textes...

Ainsi si je copie ta phrase :

(الْبَين) الْوَاضِح والطلق اللِّسَان الفصيح (ج) أبيناء وبيناء وأبيان

Tu noteras que même sur le forum on n'arrive pas à mettre les parenthèses au bon endroit

Dans un éditeur de texte, j'obtiens l'image jointe, les parenthèses ne sont pas au bon endroit...
Sans la possibilité de constituer le fichier input correctement, il me sera difficile de t'aider...

Ceci dit une suggestion, plutôt que d'utiliser les regex, découper la ligne selon les parenthèses :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
#!/usr/bin/env perl
use strict;
use warnings;
use autodie;
 
 
open(my $fh, "<:utf8", 'input') or die "Failed to open file: $!\n";
 
open my $fh1, ">:utf8", 'output.xml';
 
 
my ($entry, $gloss, $exemple);
while ( my $Line = <$fh> ) {
	chop $Line;
	my @Tableau = split (/\)/, $Line);
	print_stuff($Tableau[0], $Tableau[1], $Tableau[2]);
}
 
 
close $fh1;
close $fh;
 
sub print_stuff {
	my ($entry, $gloss, $exemple) = (shift, shift, shift);
	return unless($entry);
	print $fh1 "<entry form=\"$entry\">\n";
	print $fh1 "\t<defs>\n";
	print $fh1 "\t\t<gloss>$gloss</gloss>\n";
	print $fh1 "\t\t<exemple>$exemple</exemple>\n" if ($exemple);
	print $fh1 "\t</defs>\n";
	print $fh1 "</entry>\n\n\n";
}

j'obtiens :

<entry form="(الْبَين">
<defs>
<gloss> الْوَاضِح والطلق اللِّسَان الفصيح (ج</gloss>
<exemple> أبيناء وبيناء وأبيان</exemple>
</defs>
</entry>

Ensuite pour chaque cellule il faut traiter les parenthèses fermantes...
[Edit 02:35] Parenthèses fermantes
Ça pourrait donner çà :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
 
#!/usr/bin/env perl
use strict;
use warnings;
use autodie;
 
 
open(my $fh, "<:utf8", 'input') or die "Failed to open file: $!\n";
 
open my $fh1, ">:utf8", 'output.xml';
 
 
my ($entry, $gloss, $exemple);
while ( my $Line = <$fh> ) {
	chop $Line;
	my @Tableau = split (/\)/, $Line);
 
	$Tableau[0] =~ s/\(//;
	$Tableau[1] =~ s/^\s//;
	$Tableau[1] =~ s/\s\(.//;
	$Tableau[2] =~ s/^\s//;
 
	print_stuff($Tableau[0], $Tableau[1], $Tableau[2]);
}
 
 
close $fh1;
close $fh;
 
sub print_stuff {
	my ($entry, $gloss, $exemple) = (shift, shift, shift);
	return unless($entry);
	print $fh1 "<entry form=\"$entry\">\n";
	print $fh1 "\t<defs>\n";
	print $fh1 "\t\t<gloss>$gloss</gloss>\n";
	print $fh1 "\t\t<exemple>$exemple</exemple>\n" if ($exemple);
	print $fh1 "\t</defs>\n";
	print $fh1 "</entry>\n\n\n";
}

c'est du coup par coup, voir si les autres phrases sont constituées de la même façon... adapter les substitutions... :

<entry form="الْبَين">
<defs>
<gloss>الْوَاضِح والطلق اللِّسَان الفصيح</gloss>
<exemple>أبيناء وبيناء وأبيان</exemple>
</defs>
</entry>

NB : les substituions correspondent à mon fichier en entrée dans lequel les parenthèses fermantes ne sont pas au bon endroit...

Bien sûr ce n'est pas terrible, mais c'est peut-être une piste...

**BufferBob** · 19/01/2017, 08h59

salut Ftina,

si je reprends ton exemple et par rapport à ta regex (ligne 15) :

(الْبَين) الْوَاضِح والطلق اللِّسَان الفصيح (ج) أبيناء وبيناء وأبيان

si j'ai bien compris on identifie assez facilement entry et gloss, en revanche je ne comprends pas comment tu match 'exemple'

le problème étant que le . est mal adapté ici dans les regex, du fait des caractères qui sont encodés sur plusieurs octets, c'est très bien expliqué ici pour peu qu'on lise l'anglais

pour le moins avec la regex suivante on parvient à s'en sortir :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

($entry, $gloss) = $_ =~ /^\p{Ps}(\X+?)\p{Pe}\X+\p{Pe}([^\p{Pe}]+)$/

\p{Ps} est une parenthèse ouvrante (parenthesis start ?), quelque soit la façon dont elle est encodée, et son pendant \p{Pe} pour la parenthèse fermante (parenthesis end ?)
\X représente n'importe quel caractère unicode, en gros c'est l'équivalent du point .

les autres tokens (incluant des trucs comme \p{Arabic} par exemple) sont dispos dans le lien que j'ai donné plus haut
la regex en action : https://regex101.com/r/tJ2wYA/3

expression régulière avec perl

Langage Perl

Discussions similaires

Partager

Partager