Erreur d'encodage Python: UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3

**davtypo3** · 10/04/2014, 12h19

Bonjour,

J'ai un bogue avec mon module Python sous Windows, j'ouvre un fichier text avec des accents, je mets le string dans une variable et j'ouvre le client email par défaut de mes utilisateurs avec le corps du message.

Sur mon poste tout fonctionne bien mais pas sous le poste des mes clients (Windows) également, voici mon code:

Je récupère mon fichier text:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
# Get e-mail body file
        email_body = open('config/email_body.txt').read().encode('cp1252')

Puis j'ouvre l'email du client avec le body text et les fichiers attachés:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
            # Open default e-mail client, prepare e-mail
            Popen(            
                obj_config['mail_section']['email_client_exe'].encode('cp1252') + 
                " -compose " \
                "to='" + obj_config['mail_section']['email_to'] + "'," \
                "cc='" + obj_config['mail_section']['email_cc'] + "'," \
                "subject='" + obj_config['mail_section']['email_subject'] + "'," \
                "attachment='" + ','.join(files_list) + "'," \
                "body='" + email_body + "'", stdout=PIPE, stderr=PIPE

Moi tout fonctionne bien mais les autres postes voici l'erreur:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
ERROR: Traceback (most recent call last):
  File "C:\make_thon_rouge_report\make_thon_rouge_report.py", line 151, in send_com_department_report
    email_body = open('config/email_body.txt').read().encode('cp1252')
  File "C:\Python25\lib\encodings\cp1252.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_table)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 40: ordinal not in range(128)

Note: je redirige la console dans sys.stdout et j'ai aussi tous mes "print" dans un fichier de log en plus...

Une idée sur le standard pour faire ce que je souhaite?
Merci,

**wiztricks** · 10/04/2014, 12h43

Salut,
Sous Python2, l'instruction:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

email_body = open('config/email_body.txt').read()

retourne dans email_body un "str" composé de "bytes".
Je ne comprends pas pourquoi vous appliquez .encode('cp1252') à cette chose là:
.decode serait plus adapté non?
Exemple:

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
>>> s = 'aéçà'
>>> s.encode('latin-1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0x82 in position 1: ordinal
not in range(128)
>>> s.decode('latin-1')
u'a\x82\x87\x85'
>>>

- W

**davtypo3** · 10/04/2014, 13h30

Si je ne fais pas ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

email_body = open('config/email_body.txt').read().encode('cp1252')

Cela ne fonctionne pas, quand le client mail ouvre voici le body text que j'ai:
...en piÃ¨ce jointe les extractions prÃ©vues pa...

Si je fais ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

email_body = open('config/email_body.txt').read().decode('latin-1')

Alors: UnicodeDecodeError: 'utf8' codec can't decode bytes in position 31-33: invalid data...

Avec un :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

print type(email_body) : <type 'unicode'>

Avec un :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

email_body = open('config/email_body.txt').read().encode('cp1252')

J'ai un "str"

**davtypo3** · 10/04/2014, 13h33

Peut-être que je dois ouvrir mon fichier qui contient des accents avec codec.open ...? Du style:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

f = codecs.open(filename, 'r', encoding='latin-1')

Pourtant j'avais déjà testé....Cela ne fonctionnait pas plus

**wiztricks** · 10/04/2014, 14h36

Salut

codecs.open(filename, 'r', encoding='latin-1').read() est logiquement équivalent à open(filename, 'r').read().decode('latin-1')
Les 2 supposent que les bytes du fichier sont codés "latin-1" et doivent produire un buffer Unicode.

Si le codage est différent, çà affichera de drôles de choses.
- W

**davtypo3** · 10/04/2014, 15h31

Bon en fait je viens de trouver une solution, manifestement sous Python 2.5 si je mets dans Lib/sitecustomize.py

avec:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import sys
sys.setdefaultencoding('utf8')

Quand Python s'initialise il le fait avec sys. utf8 par défaut maintenant, si je ne mets pas ceci, il s'initialise avec ascii et je n'ai plus accès aux méthodes decode/encode par la suite!

**champomy62** · 27/04/2014, 13h12

Salut,

Effectivement sous python 2.7, de base c'est l'ascii qui règne. Tu peux modifier ça grâce aux paramètre que tu as mis ou mettre en début de fichier :

# -*- coding:utf-8 -*-

Avec python3, c'est utf8 directement.

Je te laisse un article expliquant très bien ces quelques détails : http://sametmax.com/lencoding-en-pyt...is-pour-toute/

J'espère ne pas être arrivé trop tard ...

**wiztricks** · 27/04/2014, 23h43

Salut,

Envoyé par champomy62

Effectivement sous python 2.7, de base c'est l'ascii qui règne.

Ce qu'on a "de base" est un "par défaut". Le PO a choisi de le modifier via un sys.setdefaultencoding('utf8').
Ca fonctionne. Il me semble plus judicieux d'apprendre à se dépatouiller avec les options .encode et .decode.
C'est pas si compliqué et çà pourra toujours servir car à les données extérieures à un programme Python ne seront pas toujours encodées avec le "par défaut" choisi à l'instant t.

Tu peux modifier ça grâce aux paramètre que tu as mis ou mettre en début de fichier :

# -*- coding:utf-8 -*-

Avec python3, c'est utf8 directement.

Je te laisse un article expliquant très bien ces quelques détails : http://sametmax.com/lencoding-en-pyt...is-pour-toute/

Pas mal le tuto.
Relisez le! La règle numéro 3 ne s'applique qu'à l'encoding des scripts lorsqu'on y a écrit des commentaires ou des littéraux de type "string" avec des caractères accentués.

Le problème posé par le PO est différent: il lit un fichier externe.
De plus, regardez ses scripts: ses commentaires sont en english, de l'US ASCII:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
# Get e-mail body file
        email_body = open('config/email_body.txt').read().encode('cp1252')
...
            # Open default e-mail client, prepare e-mail
            Popen(

A mon sens, c'est la moins mauvaise pratique.
Mais je n'irai pas perdre mon temps à essayer de la défendre dans un forum pour les français: je vois déjà la levée de boucliers!

De fait, l'ASCII est le sous ensemble commun de toutes les polices UTF-8, latin-1,.... une sorte d'espéranto passe partout, rien à déclarer...

- W

Erreur d'encodage Python: UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3

Python

Discussions similaires

Partager

Partager