panic: reg_node overrun trying to emit 63

**Vinorcola** · 05/06/2014, 11h01

Bonjour à tous,

Débutant en Perl, je rencontre un soucis lors de l'évaluation d'une expression régulière avec des caractères chinois. J'ouvre bien le fichier en UTF-8, mais je rencontre le message suivant lors de l'exécution du script :

panic: reg_node overrun trying to emit 63.

Après quelques recherches, je n'arrive pas à comprendre le sens du message d'erreur. Et après quelques tests appronfondis, j'arrive à des trucs complètement bizarre :

Mon fichier contient la ligne suivante :

<tr><td class="fins_title1"><B>Address</B></td><td class="fins_title2">山东省枣庄市邳庄村#(ShanDongShengZaoZhuangShiZuoZhuangCun)</td></tr>

Et il me faut extraire l'adresse en Chinois et celle en Pinyin. J'utilise pour ça un regex :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

/<td class="fins_title2">(\p{Han}+)#\(([ a-z]+)\)<\/td>/i

C'est là que j'obtiens l'erreur.

Maintenant, en simplifiant la regex :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
/<td class="fins_title2">(\p{Han}+)/i    => Même erreur
/ss="fins_title2">(\p{Han}+)/i           => Même erreur
/s="fins_title2">(\p{Han}+)/i            => OK (??????? pourquoi ?????)
/ss="fins_title2">(.+)/i                 => OK (A cause des charactères chinois qui passent pas ?????)

Bref, je trouve que c'est assez du délire, et je comprends vraiment rien à l'histoire...

Merci d'avance pour votre aide.

**dmganges** · 06/06/2014, 15h02

Bonjour,

Je me lance sans prétention

J'ouvre bien le fichier en UTF-8

C'est incontournable bien sûr mais, mais suivant ce que tu fais, ça ne suffit pas.
Il faut avoir en tête d'être UTF-8 sur TOUTE LA LIGNE.

UTF-8 sur TOUTE LA LIGNE ça veut dire :
- Ouverture et traitement des fichiers (pour ça tu sembles OK) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

open IN_Fic, '<:encoding(UTF-8)', $fichier_titre

- Si tu traites des libellés en chinois à l'intérieur du programme perl.pl il ne faut pas oublier use utf8; :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
#!/usr/bin/perl
use strict;
use warnings;
use utf8;

- Dans les expressions régulières dans la mesure du possible utilise la notation UTF-8 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$Lig =~ s/\x{064E}\x{0627}/\x{0627}/go; # Supprime Fatha devant Alif ?
    $Lig =~ s/\x{064E}\x{0649}/\x{0649}/go; # Supprime Fatha devant Alif marsour ?
    $Lig =~ s/\x{0650}\x{064A}/\x{064A}/go; # Supprime Kasra devant Ya ?
    $Lig =~ s/\x{064F}\x{0648}/\x{0648}/go; # Supprime Damma devant Oua ?

Là, ce sont des caractères arabes.

- Enfin le code de tes programmes doivent être eux-même sauvegardés UTF-8
Regarde donc les possibilités de ton éditeur de texte préféré...
Perso je sauvegarde en UTF-8 NOBOM

[EDIT 15:20] HTML
Bien sûr le code html doit lui aussi être sauvegardé UTF-8 NOBOM
et comporter :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Il doit y avoir des choses similaires à prévoir si tu utilises PHP et autres langages...

Je ne suis pas certain que ça te soit utile !
C'est par solidarité car j'ai beaucoup galéré moi-même...

Bon courage

**CosmoKnacki** · 06/06/2014, 15h41

Pour ma part, j'ai pu résoudre le problème de deux manières:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
use strict;
use warnings;
use utf8;
use Encode;
 
my $data = '<tr><td class="fins_title1"><B>Address</B></td><td class="fins_title2">山东省枣庄市邳庄村#(ShanDongShengZaoZhuangShiZuoZhuangCun)</td></tr>';
 
if ($data =~ /<td class="fins_title2">(\p{Han}+)#\(([ a-z]+)\)<\/td>/iu) {
	print encode("utf-8", $1) ."\n" . $2; 
}

(voir par ici, à propos du modificateur /u)

Remarque: on peut aussi séparer artificiellement les deux s en écrivant /<td clas[s]=.../i.

ou:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
use strict;
use warnings;
use utf8;
use feature 'unicode_strings';
use Encode;
 
my $data = '<tr><td class="fins_title1"><B>Address</B></td><td class="fins_title2">山东省枣庄市邳庄村#(ShanDongShengZaoZhuangShiZuoZhuangCun)</td></tr>';
 
if ($data =~ /<td class="fins_title2">(\p{Han}+)#\(([ a-z]+)\)<\/td>/i) {
	print encode("utf-8", $1) ."\n" . $2; 
}

(...et par là, pour use feature 'unicode_strings';)

si ça peut te donner des pistes.

panic: reg_node overrun trying to emit 63

Langage Perl

Discussions similaires

Partager

Partager