Regex : ignorer les diacritiques ?

**Schmorgluck** · 16/07/2009, 18h52

Ma question est théorique, elle vient d'une réflexion qui m'est passée par la tête pour un projet sur lequel je travaille. Existe-t-il un moyen simple d'ignorer les diacritiques (accents, cédilles, etc) dans une expression régulière en Perl ? L'idée étant de pouvoir reconnaître un "e" dans la chaîne examinée, même si le caractère est un "é", un "è", un "ë", etc.
Est-ce possible simplement ? Et si non, est-ce en projet ?

**jabbounet** · 16/07/2009, 18h58

perso

je ferais un prétraitement qui consiste à remplacer tous les caracters accentué par leur equivalent non accentué.

**jabbounet** · 16/07/2009, 19h03

Autrement il semble que cela fasse partie des questions fréquentes sur pas mal de site.

http://www.perlmonks.org/?node_id=648332

**Philou67430** · 17/07/2009, 09h59

On peut aussi imaginer un prétraitement du motif plutôt que des chaines à comparer (effectué une seule fois quand à lui), qui modifie les caractères pouvant présenter des diacritiques par des classes de caractères qui englobe toutes les variantes des diacritiques :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$pattern =~ s/e/[eéêèë]/g;

**s.n.a.f.u** · 17/07/2009, 10h33

Comment un caractère accentué est-il codé en UTF8 ? N'y aurait-il pas une partie du codage pour l'accent ?
Bref, je n'en sais rien, mais je vais suivre cette discussion, le problème étant effectivement plu que récurrent au niveau des regex, et ceci dans tous les langages.

**jabbounet** · 17/07/2009, 11h28

l'utf-8 comme l'ascii est une norme qui permet de définir une correspondnace entre un jeu de caractère humainement compréhanesible et un octet.

http://terroirs.denfrance.free.fr/p/...ode_utf-8.html

par exemple en utf-8 A=65,
e=101
¨tous les e avec des accentes sont entre 231 et 235

**Jedai** · 17/07/2009, 13h11

Text::Unaccent et Text::Unaccent::PurePerl (pour ceux qui n'arrivent pas à installer le premier) permettent de retirer tous les accents d'un texte.

Si vous voulez garder votre texte avec accent mais pouvoir examiner le caractère de base indépendamment de son accent, vous pouvez utiliser les formes standards d'unicode avec Unicode::Normalize :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#!/usr/bin/perl
use strict; use warnings;
use utf8; use 5.10.0;
 
my ($codepage) = (`chcp` =~ m/:\s+(\d+)/);
foreach my $h ( \*STDOUT, \*STDERR, \*STDIN ) {
  binmode $h, ":encoding(cp$codepage)";
}
 
say "Essayons les entrées-sorties : ";
my $input = <>;
 
use Unicode::Normalize;
$input = NFD($input);
print "Votre entrée : " . NFC($input);
 
my $count_of_e =()= ($input =~ m/e/g);
say "Il y a $count_of_e 'e' dans votre entrée";
 
my $count_of_accented_e =()= ($input =~ m/e\pM+/g);
say "Il y a $count_of_accented_e 'e' avec un accent dans votre entrée";
 
__END__

Envoyé par jabbounet

l'utf-8 comme l'ascii est une norme qui permet de définir une correspondnace entre un jeu de caractère humainement compréhanesible et un octet.

Cette description est incorrecte à plusieurs titres : d'une part utf-8 n'établit pas de correspondance entre un jeu de caractère et un encodage numérique, c'est Unicode qui s'en charge, utf-8 n'est qu'une façon de stocker une suite de nombres entiers en binaire, d'autre part certains de ces caractères prennent plus d'un octet à stocker.

Envoyé par s.n.a.f.u.

Comment un caractère accentué est-il codé en UTF8 ? N'y aurait-il pas une partie du codage pour l'accent ?

Comme établit plus haut, l'utf-8 ne dit pas comment coder un caractère, Unicode le dit, et en fait Unicode offre plusieurs possibilités pour coder certains caractères, par exemple la forme D stocke séparément le caractère et ses modificateurs tandis que la forme C préconise de stocker les combinaisons courantes comme un seul nombre si possible.
'é' est donc soit 233 (forme C), soit 101 + 769 (forme D).

--
Jedaï

**jabbounet** · 17/07/2009, 13h21

oui effetivmement l'encodage utf-8 prend entre 1 et 4 octets...

Regex : ignorer les diacritiques ?

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager