Conversion des accents d'un str vers unicode impossible

**Manfried** · 19/05/2014, 12h43

Bonjour,

Après une matinée de recherche infructueuse, en désespoir de cause j'ouvre un sujet pour un problème de conversion d'un string en unicode. J'ai un script qui bloque sur cette erreur :
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 43: ordinal not in range(128)

Voici mon code :
print type(monstring)
print monstring
print monstring.decode('latin1')
monstring = unicode(monstring)

Voici ma sortie :

<type 'str'>
#########################################_Dédié
#########################################_DÃ©diÃ©
File "monfichier.py", line 90, in ?
monstring = unicode(monstring)

(Je masque la partie du string qui avant le problème pour éviter toute identification)
Le numéro de ligne d'erreur
Mon gros problème ici est selon moi le caractère "é", qui ne parvient pas être transformé en unicode depuis ma variable de type str. Le problème est que je n'initialise pas cette variable et sa valeur moi même, je la récupère depuis une connexion oracle qui m'impose un string, donc je ne peux que tenter de la convertir en unicode à postéri, ce qui ne fonctionne pas. J'ai eu beau cherché à droit à gauche comment convertir un string en unicode, en retirer les accents d'un string en python, je n'ai trouvé que des solutions qui ne fonctionnent pas.

Si avez des idées, je vous remercie d'avance.

**wiztricks** · 19/05/2014, 12h56

Envoyé par Manfried

Mon gros problème ici est selon moi le caractère "é", qui ne parvient pas être transformé en unicode depuis ma variable de type str. Le problème est que je n'initialise pas cette variable et sa valeur moi même, je la récupère depuis une connexion oracle qui m'impose un string, donc je ne peux que tenter de la convertir en unicode à postéri, ce qui ne fonctionne pas. J'ai eu beau cherché à droit à gauche comment convertir un string en unicode, en retirer les accents d'un string en python, je n'ai trouvé que des solutions qui ne fonctionnent pas.

Qu'est ce qui vous permet d'affirmer que le str est codé en "latin-1"?
A vu de nez, la sortie de decode('latin1') traduit le é sur plusieurs bytes.
Ca pourrait être de l'utf-8.
Exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
>>> s = u'dédié'
>>> s.encode('utf-8')
'd\xc3\xa9di\xc3\xa9'
>>> z = s.encode('utf-8')
>>> print z.decode('latin-1')
dÃ©diÃ©
>>> unicode(z)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal
not in range(128)
>>>

- W

**Manfried** · 19/05/2014, 13h31

Envoyé par wiztricks

Qu'est ce qui vous permet d'affirmer que le str est codé en "latin-1"?

Je ne l'affirme pas, je l'ai juste mis dans mon code pour tester le résultat en sortie, mais je confirme n'avoir aucune idée de l'encodage de mon str, je n'ai d'ailleurs pas trouver comment le tester

**Manfried** · 19/05/2014, 13h48

Bon, j'ai trouvé ma solution, pour ceux qui pourraient avoir le problème un jour :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
def removeaccents(mystring, encode='cp1252'):
	return unicodedata.normalize('NFKD', unicode(mystring, encode)).encode('ASCII', 'ignore')

Dans mon cas, il se trouve que le charset est cp1252

Invité · 19/05/2014, 14h04

Envoyé par Manfried

Bon, j'ai trouvé ma solution, pour ceux qui pourraient avoir le problème un jour :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
def removeaccents(mystring, encode='cp1252'):
	return unicodedata.normalize('NFKD', unicode(mystring, encode)).encode('ASCII', 'ignore')

Dans mon cas, il se trouve que le charset est cp1252

Bonjour,

Avez-vous pensé à mettre vos en-têtes de fichier dans vos scripts :

Exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
# -*- coding: cp1252 -*-
import module
...etc...

Voir PEP 0263 : http://legacy.python.org/dev/peps/pep-0263/

Parfois, ça ne tient qu'à ça.

EDIT: j'ai oublié le how-to sur unicode : https://docs.python.org/2.7/howto/unicode.html

@+.

**wiztricks** · 19/05/2014, 16h31

Envoyé par Manfried

Dans mon cas, il se trouve que le charset est cp1252

cp1252 est le code-point équivalent à "utf-8" - équivalent au sens de microsoft.
Le driver Oracle que vous utilisez devrait être capable de mettre les colonnes strings ou unicode sous forme unicode (Python).

Comme votre question initiale était de convertir une chaîne de caractère contenant des accents en "unicode".
Si la solution est de virer ces foutus accents, çà laisse penser à un méchant workaround où on fait tomber le truc en marche sans trop se poser de questions.

- W

Conversion des accents d'un str vers unicode impossible

Python

Discussions similaires

Partager

Partager