Encore un problème de caractères accentués

**enicnath** · 10/10/2013, 15h08

Bonjour,

Je dispose du code suivant par lequel je lis un premier fichier que je copie dans un second

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
# -*- coding:Latin-1 -*- 
Entree = open("Fichier1.dat",'r')
Sortie = open("Fichier2.dat",'w')
while True:
   Ligne=Entree.readline()
   if Ligne =='': break
   Sortie.write(Ligne.decode('Utf-8'))
Sortie.close()
Entree.close()

Le problème est que ce programme plante.

Si je remplace l'instruction

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Sortie.write(Ligne.decode('Utf-8'))

par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Sortie.write(Ligne)

Le programme ne plante plus mais les caractères accentués du premier fichier sont retranscrits bizarrement.
par exemple : lycÃ©e à la place de lycée

Quelqu'un aurait-il la solution de ce problème ?

**deusyss** · 10/10/2013, 15h40

Bonjour,

Je pense que le probleme se pose à la lecture principalement. As tu essayé de dire à python d'executer l'ensemble du code en utf8? avec la commande

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

# -*-coding:utf-8 -*

en début de fichier source

**Clodion** · 10/10/2013, 15h43

Bonjour,
Utiliser Python3, non? Et en utilisant utf8 globalement?
(Il n'y a pus de problème de ce type avec python3)
Et sinon, quelle est l'erreur exactement?

Clodion

PS: Désolé Deussys!!

**deusyss** · 10/10/2013, 15h47

Aucun soucis, on est là pour aider

**Sekigo** · 12/10/2013, 08h39

Ton fichier d'entrée est en encodage 'latin-1'.
Donc, il faut que tu fasses :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
Sortie.write(Ligne.decode('latin-1'))

Et je te conseille d'oublier le latin-1, sauf si besoin spécifique (si tu ne sais pas ce que c'est un encodage, tu passes en utf-8, point).

Donc, au début de ton fichier, comme relevé plus haut :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

# -*-coding:utf-8 -*

Et pour dire explicitement que tu souhaites écrire un fichier en utf-8 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
# On part du principe que tu n'as pas modifié le fichier d'entrée, toujours encodé en latin-1
Sortie.write(Ligne.decode('latin-1').encode('utf-8'))

Et ça m'étonnerais que Python3 ne lève plus d'erreurs sur des soucis d'encodage. En tout cas, ça serait vraiment dommageable, parce que les levées d'erreurs d'encodage m'ont sauvé la vie bien plus d'une fois. Ça peut paraitre chiant pour les débutants, mais croyez-moi, surtout dans un contexte pro, c'est indispensable si on ne veut pas se retrouver avec des données "corrompus" et chiante à nettoyer.

**tyrtamos** · 12/10/2013, 10h21

Bonjour,

Si je résume ce que je fais dans le domaine des encodages avec Python 2:

D'une manière générale, on ne travaille en interne qu'en unicode! Comme d'ailleurs Python 3. On fait donc:
-> le plus vite possible les changements d'encodage nécessaires en entrée,
-> et le plus tard possible les changements d'encodage nécessaires en sortie.

A noter que travailler en interne en utf-8 est une grosse source de problèmes. Par exemple, si le 'é' est en utf-8, len('é')==2!

Pour les pages de code Python, la ligne au tout début d'une page de code "# -*-coding:utf-8 -*", indispensable (mais on peut choisir un autre encodage), n'indique qu'une seule chose: que les chaines codées en dur dans la page sont en utf-8. Cela n'indique pas que Python travaille en utf-8. Avec Python 2, il suffit de mettre un 'u' devant la chaine de caractères comme x=u"Gérard", et elle sera convertie par Python en unicode. On peut aussi faire une conversion explicite: x="Gérard".decode("utf-8") qui donnera le même résultat.

Bien entendu, cette même ligne "# -*-coding:utf-8 -*" nécessite impérativement que l'éditeur qui a été utilisé pour construire le code Python, est bien configuré pour éditer en utf-8, et a bien enregistré le code sur disque en utf-8!

Pour les lectures de fichiers texte, il est très intéressant d'utiliser le module codecs. Ainsi, si le texte est en latin1, le code suivant le fera venir en mémoire en unicode:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
import codecs
with codecs.open("fichier.txt", "r", "latin1") as f:
    lignes = f.readlines()

Pour les écritures de fichiers texte, c'est pareil avec codecs: la conversion unicode => latin1 se fera toute seule.

Pour les entrées / sorties en console, ça dépend de l'encodage de la console! Sous Windows, par exemple, la console est en "cp850" (alors que Windows lui-même demande du "cp1252"). Sous Linux, c'est le plus souvent de l'"utf-8". La conversion doit donc être explicite (toujours avec des données en mémoire en unicode). Par exemple avec la console Windows: pour les entrées: x.decode("cp850") et pour les sorties: x.encode("cp850").

D'une manière générale pour les affichages, il faut bien connaître l'encodage de la console de sortie, y compris pour l'affichage dans les afficheurs des outils de développement ou des bibliothèques graphiques (tkinter, pyqt, pygtk, wxpython). Par exemple, Eclipse accepte l'utf-8, mais PyScripter demande le "cp1252" de Windows. Dans la plupart des cas, on obtient cet encodage avec "sys.stdout.encoding", mais ça ne marche pas toujours: certains afficheurs renvoient "None". En tout cas, si on se trompe, ça peut être une source d'erreur difficile à comprendre: on peut avoir un mauvais affichage (comme " lycÃ©e") alors que la donnée est correctement encodée en interne!

**enicnath** · 15/10/2013, 17h07

Ca marche en utilisant ton code Sekigo :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Sortie.write(Ligne.decode('latin-1').encode('utf-8'))

Merci pour tes explications tyrtamos.
Ta dernière remarque est exactement le cas sur lequel j'ai buté à l'origine.

Merci à tous.

Encore un problème de caractères accentués

Python

Discussions similaires

Partager

Partager