Encodage des fichiers

**scalpel** · 21/03/2024, 12h14

Bonjour à tous,

Dans les exercices du "Swinnen", l'auteur indique que pour un fichier dont l'encodage ne correspond pas à celui utilisé par défaut, il faut obligatoirement le préciser à l'ouverture du fichier.
J'arrive à ouvrir sans soucis des fichiers encodés différemment sans préciser l'encodage, j'ai l'impression que "Python 3.X" est capable de le détecter automatiquement.

Pourriez vous me le confirmer.

**popo** · 21/03/2024, 12h25

Il me semble que python va tenter de le déterminer si tu ne précises rien.
Mais cela peut entraîner des problèmes si le fichier contient des caractères spéciaux ou utilise un encodage différent de celui attendu.
C'est pourquoi, il est recommandé de spécifier explicitement l'encodage avec l'argument encoding pour assurer une manipulation correcte des données du fichier.

**scalpel** · 21/03/2024, 12h33

Je précise systématiquement l'encodage à utiliser, car j'ai constaté que cette façon de faire était largement répandue.
J'ai posé cette question car n'arrivant pas à reproduire le message d'erreur attendu, je voulais être sûr d'avoir bien compris l'exercice.

Merci pour ta réponse. 👍

**Sve@r** · 21/03/2024, 13h17

Bonjour

Envoyé par scalpel

J'arrive à ouvrir sans soucis des fichiers encodés différemment sans préciser l'encodage

Comment sais-tu qu'ils sont encodés différemment ? Pour info l'encodage ascii standard est englobé dans l'utf-8. Quoi qu'il en soit, préciser systématiquement l'encodage à l'ouverture est une pratique plus que conseillée (si ouverture en mode "texte" évidemment)

Envoyé par scalpel

j'ai l'impression que "Python 3.X" est capable de le détecter automatiquement.

Ca je ne sais pas. J'aurais plutôt l'impression qu'il ouvre en utf-8 si non précisé (ça me semble logique, détecter un truc automatiquement prend du temps et le résultat n'est pas garanti donc le faire systématiquement...

)

Pour info tu as la librairie chardet qui peut "estimer" l'encoding et qui te donne un résultat avec sa probabilité

Code python3 :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import chardet
with open(fichier, "rb") as fp: print(chardet.detect(fp.read()))

**wiztricks** · 21/03/2024, 13h42

Envoyé par scalpel

J'arrive à ouvrir sans soucis des fichiers encodés différemment sans préciser l'encodage, j'ai l'impression que "Python 3.X" est capable de le détecter automatiquement.

Si python essayait de... ce serait documenté et le Swinnen n'aurait pas de raison d'affirmer que ce n'est pas le cas (sauf nouvelle fonctionnalité que la version de Python du Swinnen n'a pas vue).

"ouvrir" un fichier (via open) ne pose aucun problème.

C'est à la lecture que python va décoder les bytes pour en faire de l'unicode... et que ça pourra planter. Mais souvent ça ne pose soucis qu'à l'affichage: on ne voit pas le caractère attendu.

Méfiez vous de vos impressions: testez! Essayez de comprendre ce qui a été testé... et quand vous pensez avoir reproduit un soucis, partagez le code qui permettrait de conforter vos impressions.

- W

**papajoker** · 21/03/2024, 14h09

@scalpel, ton livre n'est pas une bible, il faut donc te documenter sur "les technologies" exemple

Il me semble que

C'est pourtant simple de faire des mini tests ! c'est une chose que nous faisons très souvent (découverte techno, librairie)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
with open("test.utf.txt", "wt", encoding="utf-8") as file_:
    file_.write("""
        un été qui m'a couté 500 € ...
        et c'était 💩
        """
    )
 
with open("test.iso.txt", "wt", encoding="iso8859-1") as file_:
    file_.write("""
        un été qui m'a couté 500  ...
        et c'était 
        """
    )
 
try:
    with open("test.win.txt", "wt", encoding="windows-1252") as file_:
        file_.write("""
            un été qui m'a couté 500 € ...
            et c'était (emojy ne passe pas!)
            """
        )
except UnicodeEncodeError as err:
        print("Erreur", err)
        print()

vérif linux:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
$ file test.utf.txt
test.utf.txt: Unicode text, UTF-8 text
$ file test.win.txt
test.win.txt: Non-ISO extended-ASCII text
$ file test.iso.txt 
test.iso.txt: ISO-8859 text

Après on va lire avec python les 2 fichiers pour voir, avec et sans encodage explicite

résultat lecture sans encodage explicite sous linux

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
# lire test.win.txt None
Erreur ? 'utf-8' codec can't decode byte 0xe9 in position 16: invalid continuation byte
 
# lire test.iso.txt None
Erreur ? 'utf-8' codec can't decode byte 0xe9 in position 12: invalid continuation byte

ce qui rejoint bien la doc sur open()

In text mode, if encoding is not specified the encoding used is platform

En mode texte, si encoding n'est pas spécifié, l'encodage utilisé dépend de la plate-forme : locale.getencoding() est appelée pour obtenir l'encodage courant défini

locale.getencoding()
Get the current locale encoding:
- On Android and VxWorks, return "utf-8".
- On Unix, return the encoding of the current LC_CTYPE locale. Return "utf-8" if nl_langinfo(CODESET) returns an empty string: for example, if the current LC_CTYPE locale is not supported.
- On Windows, return the ANSI code page.

--------
autre mini test:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
# lire test.utf.txt en iso-8859-1 et afficher:
        un Ã©tÃ© qui m'a coutÃ© 500 â¬ ...
        et c'Ã©tait ð⏎

Méfiez vous de vos impressions: testez!

+100
@scalpel, faire des mini-tests, cela te permet de bien comprendre (un petit point) et en plus cela te donne des "exercices" gratuits

**scalpel** · 21/03/2024, 16h54

Plein de réponses, Merci à tous.

Je vais essayer de répondre globalement, pour mieux expliquer ce qui ma poussé à poser cette question :

1 - J'encode un fichier en "Latin-1" et je le réouvre sans précision sur l'encodage utilisé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
chaine ="Amélie et Eugène\n"
of =open("test.txt", "w", encoding ="Latin-1")
of.write(chaine)
17
of.close()
of =open("test.txt", "r")
octets =of.read()
of.close()
print(octets)
Amelie et Eugène

Mise à part que

2 - J'encode un fichier en "Utf-8" et je le réouvre sans précision sur l'encodage utilisé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
chaine ="Amélie et Eugène\n"
of =open("test.txt", "w", encoding ="Utf-8")
of.write(chaine)
17
of.close()
of =open("test.txt", "r")
octets =of.read()
of.close()
print(octets)
AmÃ©lie et EugÃ¨ne

Je constate bien une différence à la lecture, mais l'auteur montre en exemple que dans un des deux cas je ne devrait pas pouvoir ouvrir le fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
of =open("test.txt", "r")
ch_lue =of.read()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python3.1/codecs.py", line 300, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 2-4:
invalid data

Je n'ai aucun message d'erreur

, j'ai certainement loupé quelque chose.

Je précise systématiquement l'encodage à utiliser, car j'ai constaté que cette façon de faire était largement répandue.
J'ai posé cette question car n'arrivant pas à reproduire le message d'erreur attendu, je voulais être sûr d'avoir bien compris l'exercice.

**Sve@r** · 21/03/2024, 17h09

Envoyé par scalpel

1 - J'encode un fichier en "Latin-1" et je le réouvre sans précision sur l'encodage utilisé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
chaine ="Amélie et Eugène\n"
of =open("test.txt", "w", encoding ="Latin-1")
of.write(chaine)
17
of.close()
of =open("test.txt", "r")
octets =of.read()
of.close()
print(octets)
Amelie et Eugène

Pour un test permettant de voir ce qui se passe c'est bien, en pratique c'est mal. Tu dois préciser l'encoding à l'ouverture. Chez-moi, ce code provoque une erreur

Envoyé par scalpel

2 - J'encode un fichier en "Utf-8" et je le réouvre sans précision sur l'encodage utilisé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
chaine ="Amélie et Eugène\n"
of =open("test.txt", "w", encoding ="Utf-8")
of.write(chaine)
17
of.close()
of =open("test.txt", "r")
octets =of.read()
of.close()
print(octets)
AmÃ©lie et EugÃ¨ne

Chez-moi ce code fonctionne parfaitement et affiche le texte exact. Précision: je suis sous Linux avec Python3 (dans lequel l'encoding est utf-8 par défaut). Malgré ce "utf-8 par défaut" ça reste une mauvaise pratique (explicite est mieux qu'implicite)

Envoyé par scalpel

Je constate bien une différence à la lecture, mais l'auteur montre en exemple que dans un des deux cas je ne devrait pas pouvoir ouvrir le fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
of =open("test.txt", "r")
ch_lue =of.read()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python3.1/codecs.py", line 300, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 2-4:
invalid data

C'est exactement ce que j'ai. Vouloir lire un fichier encodé X comme s'il était encodé Y c'est tenter de lire du canadien dans comme si c'était du français métropolitain. Souvent ça marche, mais quelques détails peuvent différer (exemple le mot "gosse" signifiant "enfant" dans notre argot courant signifie "testicule" au Canada) et parfois ne pas fonctionner. Un encoding c'est juste une table de traduction "suite de bits vers caractère" et si la suite de bits lue n'a pas de traduction correspondante => DecodeError

Envoyé par scalpel

Je n'ai aucun message d'erreur.

Peut-être la faute à Python version Windows ??? Je testerai à l'occasion...

**wiztricks** · 21/03/2024, 18h31

Envoyé par scalpel

Je constate bien une différence à la lecture, mais l'auteur montre en exemple que dans un des deux cas je ne devrait pas pouvoir ouvrir le fichier

Vous pourrez ouvrir mais pas toujours lire.

Pour le reste, un encodage 8 bits comme latin-1 pourra être décodé avec un autre encodage 8 bits. Il y aura peu d'erreur et généralement des caractères inattendus.

Essayer de décoder un encodage 8 bits avec un décodeur utf-8 va généralement planter sur les caractères non ASCII. L'encodage UTF-8 de ces caractères se fait sur plusieurs bytes(*) et les concepteurs ont choisi d'alourdir l'encodage pour faciliter cette détection.

(*)c'est ce qui fait qu'on pourra décoder un fichier utf-8 avec un décodeur latin-1... mais on verra des caractères en plus:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
>>> '*é*'.encode('utf-8').decode('latin-1')
'*Ã©*'

- W

**fred1599** · 21/03/2024, 17h11

Bonjour,

Envoyé par Sve@r

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

chardet.detect(fp.read())

chardet.detect peut être coûteux en termes de performances, surtout pour de gros fichiers, car on doit lire l'intégralité du fichier en mémoire.

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

chardet.detect(fp.read(1024))

**Sve@r** · 21/03/2024, 17h58

Envoyé par fred1599

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

chardet.detect(fp.read(1024))

Oui mais je viens de faire un test, j'ai pris /etc/passwd et lui ai rajouté un "é" à la fin => pas détecté.
Après effectivement on tombe dans les rapports issus de risques et de probabilités...

Envoyé par fred1599

car on doit lire l'intégralité du fichier en mémoire.

Je crois qu'en passant par chardet.universaldetector on peut demander un traitement au fur et à mesure dans lequel chardet affine son résultat de façon incrémentale mais sans tout mettre en RAM. Il y a un exemple dans la doc mais j'ai pas essayé.

**fred1599** · 21/03/2024, 18h13

Envoyé par Sve@r

Oui mais je viens de faire un test, j'ai pris /etc/passwd et lui ai rajouté un "é" à la fin => pas détecté.
Après effectivement on tombe dans les rapports issus de risques et de probabilités...

Oui c'est pour cela que le plus simple est de connaître par avance les documents que l'on traite et leur encodage et ne pas compter sur des probabilités comme tu l'indiques si bien.
En général il existe peu de cas où on ne peut pas savoir la manière dont a été encodé un fichier soit parce-qu'on l'écrit, soit par tests successifs jusqu'à trouver le bon encodage.
Dans un script, j'ai jamais eu l'occasion ou le besoin d'utiliser chardet et toi ?

**Sve@r** · 21/03/2024, 19h36

Envoyé par fred1599

Dans un script, j'ai jamais eu l'occasion ou le besoin d'utiliser chardet et toi ?

Un peu dans quelques scripts où chacun prend un CSV et en génère un autre issu d'un traitement du premier. J'ai alors utilisé chardet pour que le second ait le même encodage que le premier. Même si le premier est généralement toujours utf-8, je trouvais ça plus propre.
Je l'avais mis aussi (à titre informatif) dans mon exemple de reader CSV.

Et j'ai aussi essayé "chardet.universaldetector". Ca fonctionne aussi (je viens d'ailleurs de passer mes quelques 8 scripts utilisant chardet dans cette version).

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import chardet.universaldetector
def encoding(fic, *, size=1024):
	detector=chardet.universaldetector.UniversalDetector()
	with open(fic, 'rb') as fp:
		while True:
			data=fp.read(size)
			if not data: break
			detector.feed(data)
			if detector.done: break
		# while
	# with
	detector.close()
	return detector.result
# encoding()

**papajoker** · 23/03/2024, 13h54

A noté qu'il existe charset-normalizer qui lui justement essaye de faire une conversion (lecture) automatique. Est utilisé par défaut par la lib : requests, méthodes .text() et .json() si l'encoding n'est pas donné par le serveur (ce qui explique sont très fort taux d'utilisation)

**fred1599** · 22/03/2024, 06h43

Envoyé par Sve@r

j'ai aussi essayé "chardet.universaldetector". Ca fonctionne aussi (je viens d'ailleurs de passer mes quelques 8 scripts utilisant chardet dans cette version)

Effectivement cette méthode semble plus sûre car elle attend d'avoir un seuil minimum de confiance suffisamment grand pour que detector.done soit à True.

Encodage des fichiers [Python 3.X]

Python

Vue hybride

Discussions similaires

Partager

Partager