Python 3.9 sous Windows 10 - Encodage utf-8

**Caplande** · 15/11/2021, 22h19

Bonjour,

Débutant dans python, je me heurte à la difficulté suivante:
Je crée un fichier texte soit au travers d'une procédure soit via notepad++ avec l'encodage 'utf-8'.
Dans les deux cas l'attribut encoding du fichier retourne 'cp1252'.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
mon_fichier = "mon_fichier.txt" # mon_fichier.txt a été préalablement encodé 'utf-8' dans Notepad++
with open(mon_fichier,'r') as f:
    print(f.encoding) # Imprime: 'cp1252'

Dois-je en conclure que 'utf-8' est incompatible avec Windows ?
La doc que j'ai consultée ne mentionne pas cette particularité, mais peut-être ne s'applique-t-elle uniquement et implicitement qu'au système d'exploitation LINUX ?

Merci de votre éclairage.

Georges CAPLANDE

Invité · 15/11/2021, 22h48

Bonsoir,

Euh, je pense que vous vous méprenez sur la source du problème !

Prenons un fichier texte encodé en utf8 sous Windows contenant le texte : éùàöÔ

Avec la console IDLE si je veux lire le contenu du fichier utf8.txt :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt")
>>> txt = file.read()
>>> file.close()
>>> print(txt)
Ã©Ã¹Ã*Ã¶Ã”

Il faut préciser le codage :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt", encoding="utf8")
>>> txt = file.read()
>>> file.close()
>>> print(txt)
éùàöÔ

En espérant avoir été utile !

**Caplande** · 16/11/2021, 07h18

Envoyé par LeNarvalo

Bonsoir,

Euh, je pense que vous vous méprenez sur la source du problème !

Prenons un fichier texte encodé en utf8 sous Windows contenant le texte : éùàöÔ

Avec la console IDLE si je veux lire le contenu du fichier utf8.txt :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt")
>>> txt = file.read()
>>> file.close()
>>> print(txt)
Ã©Ã¹Ã*Ã¶Ã”

Il faut préciser le codage :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt", encoding="utf8")
>>> txt = file.read()
>>> file.close()
>>> print(txt)
éùàöÔ

En espérant avoir été utile !

Très utile, en effet, merci à vous pour cette aide précieuse. J'avoue ne plus trop savoir où j'en suis avec tous ces encodages et les systèmes d'exploitation dans lesquels ils sont utilisés.

**Arioch** · 16/11/2021, 08h35

Bonjour.

Votre fichier de données contient-il des caractères accentués ?

Avec Notepad++ ou TextPad, ça m'arrive régulièrement d'ouvrir des fichiers encodés en UTF-8 mais qui sont considérés en latin-1 par ces éditeurs. Tout simplement parce que mes données source sont en anglais.

Assurez-vous d'encoder correctement votre fichier et de l'ouvrir en spécifiant encoding='utf-8' sous Python et ça devrait bien se passer

**Sve@r** · 16/11/2021, 15h20

Envoyé par jurassic pork

Désolé Sve@r de te contredire mais l'encodage par défaut pour Windows 10 en version française c'est du cp1252.
Pour le vérifier il faut lancer dans une invite de commande Powershell :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

[System.Text.Encoding]::Default

Pas mal

Ma réponse était basée sur le résultat de la méthode sys.getfilesystemencoding() dans Python qui répond "utf-8" sous W7 et W10

Envoyé par Caplande

Très utile, en effet, merci à vous pour cette aide précieuse. J'avoue ne plus trop savoir où j'en suis avec tous ces encodages et les systèmes d'exploitation dans lesquels ils sont utilisés.

Je t'avoue que moi non plus (enfin je pars du principe que tout est en utf-8 par défaut et pour l'instant ça me réussit, je retrouve mes billes et mes strings correctes). Ma plus grande crainte c'est quand j'utilise une fenêtre permettant de sélectionner un dossier/fichier dans l'arborescence (exemple QFileDialog sous PyQt) et que l'utilisateur choisit un nom de fichier avec accents. Comment vais-je retrouver le nom de fichier à l'arrivée...

Il existe aussi la libraiire "detect" qui peut "sniffer" l'encoding d'un fichier. On ouvre le fichier en binaire pour ne pas à avoir d'encoding parasite et on passe à detect le contenu du fichier.
Exemple

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
>>> import chardet
>>> chardet.detect(open("le_fichier", "rb").read())
{'encoding': 'utf-8', 'confidence': 0.87625, 'language': ''}

Le champ "confidence" étant le taux de probabilité d'avoir raison...

**Sve@r** · 15/11/2021, 23h06

Bonjour

Envoyé par Caplande

Dans les deux cas l'attribut encoding du fichier retourne 'cp1252'.

C'est quoi "l'attribut encoding" du fichier ?

Envoyé par Caplande

Dois-je en conclure que 'utf-8' est incompatible avec Windows ?

Pas du tout, c'est un standard. W10 (et peut-être W7) sont en utf8 par défaut.

En tout cas cela n'a pas grand chose à voir avec Python...

**jurassic pork** · 16/11/2021, 07h14

hello,
Voici un petit test pour comprendre ce qui se passe sur la lecture d'un fichier texte. Exemple de que j'obtiens pour la lecture d'un fichier texte utf8.txt qui contient des caractères encodés en utf-8 :

>>> open(r'D:\temp\utf8.txt')
<_io.TextIOWrapper name='D:\\temp\\utf8.txt' mode='r' encoding='cp1252'>
>>> open(r'D:\temp\utf8.txt',encoding='utf-8')
<_io.TextIOWrapper name='D:\\temp\\utf8.txt' mode='r' encoding='utf-8'>

Dans les fichiers texte en général il n'y a pas un en-tête qui dit quel type d'encodage texte est utilisé dans le fichier (sauf par exemple utf-8 avec BOM).
Open ne détecte pas le type d'encodage des fichiers texte, il prend l'encodage utilisé par défaut par l'O.S (cp1252 pour windows 10) quand on ne lui précise pas. La détection ne serait pas toujours facile à faire. Par exemple un fichier qui ne contient que des caractères ascii peut être cp1252 ou utf-8.
Si l'on connaît le type d'encodage utilisé par le fichier texte à lire Il faut mettre en paramètre du open, l'encodage utilisé dans le fichier. Exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

open(r'D:\temp\utf8.txt',encoding='utf-8')

Envoyé par Sve@r

Pas du tout, c'est un standard. W10 (et peut-être W7) sont en utf8 par défaut.

Désolé Sve@r de te contredire mais l'encodage par défaut pour Windows 10 en version française c'est du cp1252.
Pour le vérifier il faut lancer dans une invite de commande Powershell :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

[System.Text.Encoding]::Default

Et voilà ce que moi j'obtiens pour un Windows 10 Edition familiale :

IsSingleByte : True
BodyName : iso-8859-1
EncodingName : Europe de l'Ouest (Windows)
HeaderName : Windows-1252
WebName : Windows-1252
WindowsCodePage : 1252
IsBrowserDisplay : True
IsBrowserSave : True
IsMailNewsDisplay : True
IsMailNewsSave : True
EncoderFallback : System.Text.InternalEncoderBestFitFallback
DecoderFallback : System.Text.InternalDecoderBestFitFallback
IsReadOnly : True
CodePage : 1252

Ami calmant, J.P

Python 3.9 sous Windows 10 - Encodage utf-8

Python

Vue hybride

Discussions similaires

Partager

Partager