Encodage Latin-1 Lecture de fichiers

**Xav Charbi** · 31/10/2013, 12h02

Bonjour,

Je me permets de vous soumettre un petit problème d'encodage ! J'ai lu des tas de pages/forum sur internet, mais entre les différentes versions de python et les différents encodages, je commence à m'y perdre.

Je travaille sous Python 3.3 et windows 7. Je cherche à lire des fichiers textes (quand je les ouvres sous windows, aucun problème de lecture). Quand je les ouvre avec Python, plein de problèmes : beaucoup de caractères ne sont pas lus correctement, et les fichiers sont bourrés de \u0327, \u2013,... par exemple. Si j'essaye

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 monText.encode('utf-8', 'replace')

je récupère b'\xe2\x80\x93' pour '\u2013'

Si j'essaye 'Latin-1' ou sys.stdout.encoding à la place de 'utf-8' j'obtiens '?'

Dans ma configuration, sys.stout.encoding vaut 'cp850'.

Bref la lecture des fichiers est très compliquée !

Merci pour votre aide !

**fred1599** · 31/10/2013, 13h15

Arf j'ai jamais ce problème avec python3

Tu peux essayer de l'ouvrir avec l'option encoding='utf8'

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
f = open('fichier.txt', 'r', encoding='utf8')
print(f.read())

**Xav Charbi** · 31/10/2013, 17h22

Merci pour la réponse !

Voici ce que ca donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
>>> f= open(files1, 'r', encoding='utf8')
>>> f.read()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Program Files\WinPython\python-3.3.2\lib\codecs.py", line 300, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 158: invalid continuation byte

J'ai essayé avec Latin-1, les caractères \u**** sont transformés en \x****. Avec cp850, les caractères sont transformés en d'autres caractères assez incohérents et peu compréhensibles...
Bref peut-être qu'il y a un paramètres dans mon système, python ou quelque part d'autre qui n'est pas bon, mais je m'y connais trop peu pour comprendre où.

**fred1599** · 31/10/2013, 17h41

Chez moi ça fonctionne, sous Linux et avec ou sans le paramètre encoding.

Je pense que cela doit dépendre de ton fichier qui doit avoir un encodage spécifique, faut faire des tests où passer le fichier afin qu'on fasse des tests...

**Sekigo** · 31/10/2013, 19h49

Envoyé par Xav Charbi

Merci pour la réponse !

Voici ce que ca donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
>>> f= open(files1, 'r', encoding='utf8')
>>> f.read()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Program Files\WinPython\python-3.3.2\lib\codecs.py", line 300, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 158: invalid continuation byte

J'ai essayé avec Latin-1, les caractères \u**** sont transformés en \x****. Avec cp850, les caractères sont transformés en d'autres caractères assez incohérents et peu compréhensibles...
Bref peut-être qu'il y a un paramètres dans mon système, python ou quelque part d'autre qui n'est pas bon, mais je m'y connais trop peu pour comprendre où.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
# Sous Python2.7
>>> string = "Hétérogénéité"
>>> string
'H\xc3\xa9t\xc3\xa9rog\xc3\xa9n\xc3\xa9it\xc3\xa9'
>>> print(string)
Hétérogénéité
>>> string.decode('utf-8')
u'H\xe9t\xe9rog\xe9n\xe9it\xe9'
>>> print(string.decode('utf-8'))
Hétérogénéité

Les caractères bizarres que tu vois, c'est la représentation interne de Python. Tu ne manipules pas des caractères, mais des chiffres.
Avec un print(), tu afficheras les caractères associés à ces chiffres.

**tyrtamos** · 02/11/2013, 09h20

Bonjour,

Comme souvent, Python 3 a résolu des problèmes d'encodage mais en a créé d'autres...

1- on a un fichier texte encodé en utf-8. On le lit de la manière suivante pour le trouver en unicode en mémoire (ici, on ne lit que la 1ère ligne qui contient, par exemple:"abcéèçàùôï"):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
with open(fichier, 'rt', encoding='utf-8') as f:
    ch = f.readline().rstrip()

Si on n'utilise que le mode 'r', le texte ne sera pas en unicode (2 octets/caractère dans les implantations courantes) mais en byte (1 octet/caractère).

Maintenant, on veut l'afficher dans la console dos (cmd.exe) dont l'encodage est "cp850". Il faut donc convertir l'unicode en "cp850" comme suit:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ch = ch.encode("cp850")

Mais maintenant, si on fait print(ch), cela donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

b'abc\x82\x8a\x87\x85\x97\x93\x8b'

Ce qui n'est pas très joli. Alors, comment on fait? On fait comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import sys
sys.stdout.buffer.write(ch)

Et là, ça affiche bien dans la console:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

abcéèçàùôï

Si on a beaucoup d'affichages comme ça, on peut créer une nouvelle fonction d'affichage. Par exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import sys
 
def printb(*args, encoding='utf-8', end='\r\n'):
    """affiche les chaines unicode de *args avec l'encodage "encoding" """
    sys.stdout.buffer.write((' '.join(args) + end).encode(encoding))
 
printb("abcéèçàùôï", "abcéèçàùôï", "abcéèçàùôï", encoding="cp850")
abcéèçàùôï abcéèçàùôï abcéèçàùôï

Ok?

**monarc12000** · 11/06/2021, 00h46

fichier en utf-8 et encodage declaré # coding:utf-8;
et voilà tout

**tyrtamos** · 11/06/2021, 05h39

Bonjour,

Envoyé par monarc12000

fichier en utf-8 et encodage declaré # coding:utf-8;
et voilà tout

S'il s'agit du "# -*- coding: utf-8 -*-" déclaré au début du code source, ce n'est pas sa signification: c'est une instruction donnée à l'interpréteur Python pour savoir avec quel encodage lire le code source (et donc, en particulier les chaînes de caractères codées "en dur" dans le code). Il faut, bien sûr, que ce code source ait été écrit et sauvegardé avec ce même encodage. Cela ne change pas la nécessité de préciser l'encodage d'un fichier à lire.

C'est un vieux fil de 2013, et pour lire un fichier texte encodé en utf-8, il suffit maintenant de l'ouvrir avec open("monfichier", "r", encoding="utf-8") pour obtenir en mémoire le texte en Unicode.

Il reste, bien sûr, le "sauvetage" des fichiers mal fichus après une écriture et une sauvegarde avec des encodages discordants.

Encodage Latin-1 Lecture de fichiers

Python

Discussions similaires

Partager

Partager