IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Encodage Utf-8 et le module Codecs


Sujet :

Python

  1. #1
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Décembre 2011
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 22
    Points : 18
    Points
    18
    Par défaut Encodage Utf-8 et le module Codecs
    Bonjour,

    J'ai un petit soucis d'encodage :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    codecs.open(event.GetPath(),"rb", "utf-8")
    Il me semble que ces lignes devrait me retourner un fichier au format UTF-8 ?
    Or lorsque j'affiche des données du fichier en question j'obtiens de joli \xc3\xa9 à la place des é et bien d'autre fioriture...

    pourtant le fichier que je donne dans le GetPath() est bien au format UTF-8

    Quelqu'un voit où se situe le problème ?

  2. #2
    Membre éprouvé

    Homme Profil pro
    Diverses et multiples
    Inscrit en
    Mai 2008
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Diverses et multiples

    Informations forums :
    Inscription : Mai 2008
    Messages : 662
    Points : 1 273
    Points
    1 273
    Par défaut
    Lorsque tu dis "rb", tu demandes à open() d’ouvrir le fichier en mode lecture binaire… préciser l’encodage ne sert donc à rien*!

  3. #3
    Expert éminent
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 462
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 462
    Points : 9 249
    Points
    9 249
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Non, cette instruction lit un fichier encodé en utf-8, et l'intègre en mémoire en unicode. Ce n'est donc pas normal d'obtenir '\xc3\xa9' qui est la représentation binaire de 'é' en utf-8.

    NB pour mont29: c'était ma 1ère réaction, mais j'ai vérifié => avec le module codecs, la lecture se fait tout le temps en mode binaire, même quand on ne le demande pas ("Files are always opened in binary mode, even if no binary mode was specified")
    Un expert est une personne qui a fait toutes les erreurs qui peuvent être faites, dans un domaine étroit... (Niels Bohr)
    Mes recettes python: http://www.jpvweb.com

  4. #4
    Membre éprouvé

    Homme Profil pro
    Diverses et multiples
    Inscrit en
    Mai 2008
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Diverses et multiples

    Informations forums :
    Inscription : Mai 2008
    Messages : 662
    Points : 1 273
    Points
    1 273
    Par défaut
    avais pas vu que c’était le open() de codecs…

    Donc, en effet, pas normal, a priori.

    ashanka, un peu plus de code pourrait aider à comprendre le problème.

  5. #5
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Décembre 2011
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 22
    Points : 18
    Points
    18
    Par défaut
    Ok je pense que je vois d'où vient le soucis.
    j'ai fait un affichage de tous mon fichiers directement après l'avoir récupéré et je n'avait de problème d'encodage. j'ai recommencer à divers endroit pour voir où ça commençait à merder et j'ai trouvé.

    A un moment dans mon code je passe tous le fichier dans un tableau pour faire des tests. Je pense que le tableau se fiche royalement de l'encodage . Je crois savoir qu'il ne veut rien connaitre à par du binaire.

    Donc je pense que je l'ai dans l'os

  6. #6
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    L'auteur ne dit pas comment il affiche l'unicode du 'é'.

    '\xc3\xa9' est une représentation ASCII valide des caractères UTF-8 représentant 'é'.

    codecs fait probablement le boulot attendu mais sans informations sur la méthode utilisée pour "afficher" ni sur l'encoding par défaut de stdout difficile de conclure.

    Cordialement,
    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  7. #7
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Décembre 2011
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 22
    Points : 18
    Points
    18
    Par défaut
    eh bien lorsque j'affiche mon fichier comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    for ligne in self.fichier1:
         print ligne
    Mon encodage est bon. Mes accents s'affiche correctement. Cependant dés que je passe mon fichier dans un tableau, si j'affiche une cellule du tableau comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    print tableauDeMonFichir[i][j]
    Les accents s'affichent des \xc3\xa9 et autres.

  8. #8
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,
    Donnez plus de code!
    Comment est construit le "tableau" à partir de la lecture du fichier?
    Vu la syntaxe de print, la version de Python est 2.7-n.
    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

Discussions similaires

  1. [DOM] Encodage UTF-8 dans fichier XML et PHP
    Par norkius dans le forum Bibliothèques et frameworks
    Réponses: 7
    Dernier message: 03/01/2007, 15h44
  2. Problème d'affichage avec encodage utf-8
    Par t-die dans le forum Zend
    Réponses: 3
    Dernier message: 04/12/2006, 14h55
  3. [C# 2.0] Comment réaliser un encodage UTF-8 ?
    Par StormimOn dans le forum C#
    Réponses: 2
    Dernier message: 18/10/2006, 10h35
  4. Pb Encodage UTF-8 pour Ooo
    Par Sylvain James dans le forum XMLRAD
    Réponses: 10
    Dernier message: 08/03/2006, 22h28
  5. [WebForms] Encodage, UTF-8 et accents
    Par alexischmit dans le forum Général Dotnet
    Réponses: 4
    Dernier message: 28/04/2004, 12h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo