Encodage Utf-8 et le module Codecs

**ashanka** · 06/03/2012, 10h42

Bonjour,

J'ai un petit soucis d'encodage :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
codecs.open(event.GetPath(),"rb", "utf-8")

Il me semble que ces lignes devrait me retourner un fichier au format UTF-8 ?
Or lorsque j'affiche des données du fichier en question j'obtiens de joli \xc3\xa9 à la place des é et bien d'autre fioriture...

pourtant le fichier que je donne dans le GetPath() est bien au format UTF-8

Quelqu'un voit où se situe le problème ?

**mont29** · 06/03/2012, 10h59

Lorsque tu dis "rb", tu demandes à open() d’ouvrir le fichier en mode lecture binaire… préciser l’encodage ne sert donc à rien*!

**tyrtamos** · 06/03/2012, 11h09

Bonjour,

Non, cette instruction lit un fichier encodé en utf-8, et l'intègre en mémoire en unicode. Ce n'est donc pas normal d'obtenir '\xc3\xa9' qui est la représentation binaire de 'é' en utf-8.

NB pour mont29: c'était ma 1ère réaction, mais j'ai vérifié => avec le module codecs, la lecture se fait tout le temps en mode binaire, même quand on ne le demande pas ("Files are always opened in binary mode, even if no binary mode was specified")

**mont29** · 06/03/2012, 12h00

avais pas vu que c’était le open() de codecs…

Donc, en effet, pas normal, a priori.

ashanka, un peu plus de code pourrait aider à comprendre le problème.

**ashanka** · 06/03/2012, 12h55

Ok je pense que je vois d'où vient le soucis.
j'ai fait un affichage de tous mon fichiers directement après l'avoir récupéré et je n'avait de problème d'encodage. j'ai recommencer à divers endroit pour voir où ça commençait à merder et j'ai trouvé.

A un moment dans mon code je passe tous le fichier dans un tableau pour faire des tests. Je pense que le tableau se fiche royalement de l'encodage

. Je crois savoir qu'il ne veut rien connaitre à par du binaire.

Donc je pense que je l'ai dans l'os

**wiztricks** · 06/03/2012, 13h05

Salut,

L'auteur ne dit pas comment il affiche l'unicode du 'é'.

'\xc3\xa9' est une représentation ASCII valide des caractères UTF-8 représentant 'é'.

codecs fait probablement le boulot attendu mais sans informations sur la méthode utilisée pour "afficher" ni sur l'encoding par défaut de stdout difficile de conclure.

Cordialement,
- W

**ashanka** · 06/03/2012, 14h42

eh bien lorsque j'affiche mon fichier comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
for ligne in self.fichier1:
     print ligne

Mon encodage est bon. Mes accents s'affiche correctement. Cependant dés que je passe mon fichier dans un tableau, si j'affiche une cellule du tableau comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
print tableauDeMonFichir[i][j]

Les accents s'affichent des \xc3\xa9 et autres.

**wiztricks** · 06/03/2012, 15h06

Salut,
Donnez plus de code!
Comment est construit le "tableau" à partir de la lecture du fichier?
Vu la syntaxe de print, la version de Python est 2.7-n.
- W

Encodage Utf-8 et le module Codecs

Python

Discussions similaires

Partager

Partager