Lecture d'un fichier codé unicode en utf8

**spe31500** · 05/02/2015, 11h36

Bonjour,

Je lis un fichier codé en unicode qui contient des caractères accentués dans un programme perl. Dès que j'utilise une expression régulière sur les lignes qui contiennent ces caractères accentués, j'obtiens l'erreur : "Malformed UTF-8 character (unexpected non continuation character .....".
Je cherche le moyen 'éliminer cette erreur sans utiliser un no warnings ":encode(utf8)" (qui focntionne bien j'ai testé!). Je n'ai pas la possibilité de réencoder le ficier en entrée.

Voici un extrait de mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
use XML::Simple;
use strict;
use warnings;
use Carp;
use Data::Dumper; 
use Encode;
 
.....
 
	open($PGTI,"fichier");
 
	while (<$PGTI>) {	
		my $ligne=$_;
		for ($ligne) {
		...
		   if ( $ligne =~ /<(.*)>(\d\d\/\d\d\/\d\d\d\d \d\d:\d\d:\d\d)/) {
		   ...
		   }
		}
	}

Je cherche une focntion qui transforme le codage au moment de la lecture; Est-ce que ca existe ?
Je suis sur linux centos, perl v5.10

Merci de votre aide

**spe31500** · 05/02/2015, 12h55

J'ai enfin trouvé la solution !!!!
il suffit de :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
while (<$PGTI>) {	
		my $ligne=$_;
		for ($ligne) {
my $ligne_decodee=encode("utf8", $ligne);

Et ca marche ....

**Philou67430** · 05/02/2015, 15h27

As-tu essayé la fonction binmode ?
Style :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

binmode($PGTI, ":utf8");

Pour la gestion des caractères non ASCII dans une regexp, il me semble que tu devrais utiliser "locale" également :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

use locale;

(voir docs : perldoc locale et perldoc perllocale)

Il sera peut-être nécessaire de correctement position la locale, soit à l'extérieur de perl, grâce aux variables d'environnement LC_CTYPE, LC_*, soit grâce à la fonction du module POSIX setlocale;

**Lolo78** · 05/02/2015, 19h51

Tu écris:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
open($PGTI,"fichier");

Quand on ouvre un fichier, il est fortement recommandé de spécifier si tu ouvres en lecture ou en écriture (en utiisant la syntaxe dite à trois arguments) et de tester si l'opération système a réussi:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
openmy $PGTI, "<", "fichier" or die "Ouverture impossible de "fichier" $!";

J'ajoute que tu peux spécifier utf8 dans le mode (le second argument), ce qui permet d'utiliser une couche d'entrée-sortie utf8 et de ne plus avoir besoin de décoder.

**spe31500** · 06/02/2015, 10h08

Philou :

Merci ... je viens de tester :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

binmode($PGTI, ":utf8");

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

use locale

fonctionnent aussi ... mes locales étant positionnées à UTF-8

Peux-tu m'expliquer la différence entre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

binmode($PGTI, ":utf8");

et

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my $ligne_decodee=encode("utf8", $ligne);

?

Lolo : le résultat de l'open est bien testé ... j'ai simplifié car je ne voulais pas mettre mes 1000 lignes de codes ....

**Philou67430** · 06/02/2015, 12h45

Quand tu déclares avec binmode, tu n'as pas besoin de faire de conversion "ligne à ligne"

(c'est auto-magique).

L'idée de mettre l'encoding dans le open est encore plus rapide (réponse de Lolo) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

open my $FILE, "<:encoding("UTF-8")", $filename;

Lecture d'un fichier codé unicode en utf8

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager