probleme d'encodage [Fait]

**iwky** · 05/02/2006, 10h13

bonjour,

je suis entrain de faire un petit script dans lequele, l'utilisateur est invité a entrer des données. Le programme les organise ensuite dans un fichier xml avec ElementTree en les encodant en iso-8859-15.

le problème étant que les chaines rentré par l'utilisateur n'accepte que les caractères ascii.

j'ai essayer de changer le #-*- coding: -*- en utf-8 ou en iso-8859-15
j'ai aussi essayé machaine.coding('iso-8859-15')

mais j'obtiens

Traceback (most recent call last):
File "/media/partage/python/xml/cmsxml.py", line 10, in -toplevel-
titre = raw_input(u'Blabla\n\t').encode('iso-8859-15')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

comment faire?

**naxelas** · 06/02/2006, 18h04

salut,

Il faut créer un objet unicode à partir de la chaîne. En supposant que la chaîne d'entrée est de l'iso-8859-1 (le plus probable pour la langue française):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
titre = raw_input()
titre = unicode(titre, "iso-8859-1") # crée un objet unicode à partir d'une chaîne dont on connait l'encodage
titre_encode = titre.encode("iso-8859-15") # remplacer iso-8859-15 par l'encodage désiré

**iwky** · 07/02/2006, 08h09

merci pour ta réponse.
en fait j'ai réussi en modifiant le fichier de conf de python( j'ai remplacé l'encodage par défault en ascii par utf-8. maintenant plus de pb.

a+

**akhaise** · 23/03/2006, 19h04

Il faut créer un objet unicode à partir de la chaîne. En supposant que la chaîne d'entrée est de l'iso-8859-1 (le plus probable pour la langue française):
Code:

titre = raw_input()
titre = unicode(titre, "iso-8859-1") # crée un objet unicode à partir d'une chaîne dont on connait l'encodage
titre_encode = titre.encode("iso-8859-15") # remplacer iso-8859-15 par l'encodage désiré

Mais comment faire sans connaître l'encodage originel? Y a t'il une méthode pour "deviner" l'encodage?

**naxelas** · 24/03/2006, 20h30

Mais comment faire sans connaître l'encodage originel? Y a t'il une méthode pour "deviner" l'encodage?

Pour deviner l'encodage exacte, non.
Si tu connais les encodages probables de la chaine de caractères tu peux les tester un à la fois jusque quand il n'y pas d'exception lancée.
Sinon tu te définis un encodage par défaut et avec les mots clés 'ignore' ou 'replace' un chaine unicode sera créée avec les caractères non convertibles soit omis soit remplacé par un caractère par défaut:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
>>> unicode("hell\xc3\xb6", "ascii")
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)
>>> unicode("hell\xc3\xb6", "ascii", "ignore")
u'hell'

=> FAQ: http://python.developpez.com/faq/?page=Unicode

probleme d'encodage [Fait]

Python

Vue hybride

Discussions similaires

Partager

Partager