[encodage] Unicode ne sait pas lire unicode...

**Mr Hyde** · 07/10/2005, 09h54

Bonjour,

Ah décidémment!! Je crois que j'ai trouvé un défaut a Python! La gestion des encodages de caractères!!

Voila mon problème. J'ai a ma disposition une base de données Mysql dont "l'interclassement" des tables est utf8_unicode_ci:

J'ai ensuite un script coté serveur et un petit programme client.

Le script sur mon serveur fait une requete SQL pour récuperer des données dans la base et les renvoie a mon programme client. Je précise que l'encodage par défaut pour Python sur mon serveur est utf8.

Pour ne pas avoir de problème d'encodage (accents supprimés,etc, etc....) entre les clients sur window$ et sur linux ou mac, j'ai utilisé la technique suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
c.execute("SELECT nom from Categories")
for i in range(c.rowcount):
    line=c.fetchone()
    print line.encode(codage,"replace") 
# le parametre codage est un argument envoyé par le client. il s'agit de son encodage par défaut

Ainsi les chaines sont (en théorie) converties dans le bon encodage avant d'etre renvoyées....mais ca ne fonctionne pas...
Voici mon erreur:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 15-17: invalid data

Cette position 15-17 correspond a un accent 'é'. Comment se fait il qu'unicode n'arrive pas a lire de l'unicode....j'y comprend décidément rien a ces encodages de caractères!!! Please HELP!!!

**Guigui_** · 07/10/2005, 10h46

Une suggestion (parce que l'encodage je ne maîtrise pas plus que toi): les soucis ne viendrait-il pas plutôt du module de MySQL parce que j'utilise des BDD Firebird (avec kinterbasdb) et je n'ai aucun souci avec l'encodage (je ne m'en occupe même pas).

Edit: je ne sais pas si cela peut t'aider mais une autre personne avait aussi des soucis avec l'unicode et Mysql:
http://www.developpez.net/forums/vie...hlight=mysqldb

**GrandFather** · 07/10/2005, 13h08

Bonjour,

pour m'être un peu battu aussi avec l'encodage sous Python, je n'ai qu'un conseil à te donner : travaille exclusivement en Unicode, que ce soit sur le client ou le serveur. Si réellement tu doit passer par une phase de transcodage, débrouille-toi pour qu'elle soit la plus tardive possible et uniquement pour de l'affichage.

**Mr Hyde** · 07/10/2005, 15h49

Justement, j'ai repassé mes tables MySQL en utf-8_unicode et j'ai mis utf8 comme encodage par défaut sur mo serveur afin de "simplifier" un peu les choses....le probleme est que mon programme devra etre multiplateforme.

Et je ne peut pas dire aux futurs utilisateurs:
-Si vous etes sous windows, copiez le fichier sitecustomize.py fourni dans C:\Python24\site-packages

-Si vous utilisez linux ....(en plus c'est encore pire car ca semble varier selon les distros)

-Si vous utilisez un Mac...

J'essaie de faire un programme aussi générique que possible...et je ne vois pas comment faire.Ma solution semblait efficace, mais python en a décidé autrement!

En tout cas, je n'arrive vraiment pas a comprendre cette erreur. C'est quand meme dingue qu'une chaine utf8 ne puisse pas etre lue par le codec utf8!!

**Mr Hyde** · 07/10/2005, 16h07

Guigui-> Pour le module MySQLDB, je ne sais pas si le probleme vient de là, mais en tout cas, je ne peux pas faire autrement, a moins que tu ne connaise un autre module python qui permet de lire une BDD MySQL.

**Mr Hyde** · 23/11/2005, 17h56

Hello! Je ressort mon vieux post plutot que d'en créer un nouveau...

Apres m'etre rendu compte que l'encodage par défaut de l'interpreteur python etait l'ascii, j'ai décidé de remettre TOUT en ascii....mais voila, j'ai un soucis:

Dans phpmyadmin, j'ai le choix entre 'ascii_bin' et 'ascii_general_ci' et je ne sais pas lequel choisir....quelqu'un aurait il une idée?

**GrandFather** · 25/11/2005, 11h56

Envoyé par Mr Hyde

Dans phpmyadmin, j'ai le choix entre 'ascii_bin' et 'ascii_general_ci' et je ne sais pas lequel choisir....quelqu'un aurait il une idée?

Oui, poser la question sur le forum MySQL pour leur demander quelle est la différence entre les deux...

**Mr Hyde** · 28/11/2005, 17h35

J'y ai pensé, mais je me suis permis de poser la question ici car je souhaite avant tout garder la compatibilité avec Python, et je ne pense pas qu'ils pourront m'aider a ce niveau dans le forum mysql....

Bon ben tant pis, je vais essayer les deux, c'est pas la mort. Merci quand même. J'en profiterais pour vous dire lequel choisir (pour les prochains qui auront le probleme)

A+

**franck260** · 01/12/2005, 13h58

Un peu off-topic vu que le thread a dévié sur les BDDs, mais voila la méthode que j'utilise pour convertir une chaine en utf-8 de manière systématique. Je doute que ça aide bcp l'auteur du thread, mais je suis preneur de toute critique vu que c'est une des méthodes les plus laides de mon appli :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
import locale
 
def utf8(myString):
 
    CURRENT_ENCODING = locale.getdefaultlocale()[1]
 
    if isinstance(myString, unicode):
        return myString
 
    return myString.decode(CURRENT_ENCODING)

**GrandFather** · 01/12/2005, 15h03

Bonjour,

Envoyé par franck260

Un peu off-topic vu que le thread a dévié sur les BDDs, mais voila la méthode que j'utilise pour convertir une chaine en utf-8 de manière systématique. Je doute que ça aide bcp l'auteur du thread, mais je suis preneur de toute critique vu que c'est une des méthodes les plus laides de mon appli :

Pourquoi ne pas faire un simple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my_unicode_string = unicode(my_string)

**franck260** · 01/12/2005, 15h32

Je crois que ça revient au même... imaginons que ma chaine d'entrée soit café :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
>>> unicode("café")
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 3: ordinal not in range(128)
>>> unicode("café","iso8859-15")
u'caf\xe9'
>>> unicode(u"café","iso8859-15")
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
TypeError: decoding Unicode is not supported

Pour info mes chaines d'entrée proviennent de fichiers logs ouverts avec open() et contenant potentiellement des noms de fichiers accentués.

Edit : je viens de trouver ça, je vais le tester...
http://www.jorendorff.com/articles/unicode/python.html

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
  import codecs
  # Open a UTF-8 file in read mode
  infile = codecs.open("infile.txt", "r", "utf-8")

Effectivement j'aurais du mieux lire le thread ! Avec ce genre de technique, on prend le problème plus haut. Il suffit de passer iso8859-15 à codecs.open

[encodage] Unicode ne sait pas lire unicode...

Bibliothèques tierces Python

Discussions similaires

Partager

Partager