IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Python 3.9 sous Windows 10 - Encodage utf-8


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Inscrit en
    Mars 2011
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Mars 2011
    Messages : 45
    Par défaut Python 3.9 sous Windows 10 - Encodage utf-8
    Bonjour,

    Débutant dans python, je me heurte à la difficulté suivante:
    Je crée un fichier texte soit au travers d'une procédure soit via notepad++ avec l'encodage 'utf-8'.
    Dans les deux cas l'attribut encoding du fichier retourne 'cp1252'.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    mon_fichier = "mon_fichier.txt" # mon_fichier.txt a été préalablement encodé 'utf-8' dans Notepad++
    with open(mon_fichier,'r') as f:
        print(f.encoding) # Imprime: 'cp1252'

    Dois-je en conclure que 'utf-8' est incompatible avec Windows ?
    La doc que j'ai consultée ne mentionne pas cette particularité, mais peut-être ne s'applique-t-elle uniquement et implicitement qu'au système d'exploitation LINUX ?

    Merci de votre éclairage.

    Georges CAPLANDE

  2. #2
    Invité
    Invité(e)
    Par défaut
    Bonsoir,

    Euh, je pense que vous vous méprenez sur la source du problème !

    Prenons un fichier texte encodé en utf8 sous Windows contenant le texte : éùàöÔ

    Avec la console IDLE si je veux lire le contenu du fichier utf8.txt :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt")
    >>> txt = file.read()
    >>> file.close()
    >>> print(txt)
    éùÃ*öÔ
    Il faut préciser le codage :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt", encoding="utf8")
    >>> txt = file.read()
    >>> file.close()
    >>> print(txt)
    éùàöÔ
    En espérant avoir été utile !

  3. #3
    Membre averti
    Homme Profil pro
    Inscrit en
    Mars 2011
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations forums :
    Inscription : Mars 2011
    Messages : 45
    Par défaut
    Citation Envoyé par LeNarvalo Voir le message
    Bonsoir,

    Euh, je pense que vous vous méprenez sur la source du problème !

    Prenons un fichier texte encodé en utf8 sous Windows contenant le texte : éùàöÔ

    Avec la console IDLE si je veux lire le contenu du fichier utf8.txt :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt")
    >>> txt = file.read()
    >>> file.close()
    >>> print(txt)
    éùÃ*öÔ
    Il faut préciser le codage :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> file = open(r"C:\Users\LeNarvalo\Desktop\utf8.txt", encoding="utf8")
    >>> txt = file.read()
    >>> file.close()
    >>> print(txt)
    éùàöÔ
    En espérant avoir été utile !
    Très utile, en effet, merci à vous pour cette aide précieuse. J'avoue ne plus trop savoir où j'en suis avec tous ces encodages et les systèmes d'exploitation dans lesquels ils sont utilisés.

  4. #4
    Membre Expert
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2003
    Messages
    1 603
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 1 603
    Par défaut
    Bonjour.

    Votre fichier de données contient-il des caractères accentués ?

    Avec Notepad++ ou TextPad, ça m'arrive régulièrement d'ouvrir des fichiers encodés en UTF-8 mais qui sont considérés en latin-1 par ces éditeurs. Tout simplement parce que mes données source sont en anglais.

    Assurez-vous d'encoder correctement votre fichier et de l'ouvrir en spécifiant encoding='utf-8' sous Python et ça devrait bien se passer

  5. #5
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Désolé Sve@r de te contredire mais l'encodage par défaut pour Windows 10 en version française c'est du cp1252.
    Pour le vérifier il faut lancer dans une invite de commande Powershell :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    [System.Text.Encoding]::Default
    Pas mal

    Ma réponse était basée sur le résultat de la méthode sys.getfilesystemencoding() dans Python qui répond "utf-8" sous W7 et W10


    Citation Envoyé par Caplande Voir le message
    Très utile, en effet, merci à vous pour cette aide précieuse. J'avoue ne plus trop savoir où j'en suis avec tous ces encodages et les systèmes d'exploitation dans lesquels ils sont utilisés.
    Je t'avoue que moi non plus (enfin je pars du principe que tout est en utf-8 par défaut et pour l'instant ça me réussit, je retrouve mes billes et mes strings correctes). Ma plus grande crainte c'est quand j'utilise une fenêtre permettant de sélectionner un dossier/fichier dans l'arborescence (exemple QFileDialog sous PyQt) et que l'utilisateur choisit un nom de fichier avec accents. Comment vais-je retrouver le nom de fichier à l'arrivée...

    Il existe aussi la libraiire "detect" qui peut "sniffer" l'encoding d'un fichier. On ouvre le fichier en binaire pour ne pas à avoir d'encoding parasite et on passe à detect le contenu du fichier.
    Exemple
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    >>> import chardet
    >>> chardet.detect(open("le_fichier", "rb").read())
    {'encoding': 'utf-8', 'confidence': 0.87625, 'language': ''}
    Le champ "confidence" étant le taux de probabilité d'avoir raison...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  6. #6
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Caplande Voir le message
    Dans les deux cas l'attribut encoding du fichier retourne 'cp1252'.
    C'est quoi "l'attribut encoding" du fichier ?

    Citation Envoyé par Caplande Voir le message
    Dois-je en conclure que 'utf-8' est incompatible avec Windows ?
    Pas du tout, c'est un standard. W10 (et peut-être W7) sont en utf8 par défaut.

    En tout cas cela n'a pas grand chose à voir avec Python...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  7. #7
    Expert confirmé
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    4 228
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 4 228
    Par défaut
    hello,
    Voici un petit test pour comprendre ce qui se passe sur la lecture d'un fichier texte. Exemple de que j'obtiens pour la lecture d'un fichier texte utf8.txt qui contient des caractères encodés en utf-8 :
    >>> open(r'D:\temp\utf8.txt')
    <_io.TextIOWrapper name='D:\\temp\\utf8.txt' mode='r' encoding='cp1252'>
    >>> open(r'D:\temp\utf8.txt',encoding='utf-8')
    <_io.TextIOWrapper name='D:\\temp\\utf8.txt' mode='r' encoding='utf-8'>
    Dans les fichiers texte en général il n'y a pas un en-tête qui dit quel type d'encodage texte est utilisé dans le fichier (sauf par exemple utf-8 avec BOM).
    Open ne détecte pas le type d'encodage des fichiers texte, il prend l'encodage utilisé par défaut par l'O.S (cp1252 pour windows 10) quand on ne lui précise pas. La détection ne serait pas toujours facile à faire. Par exemple un fichier qui ne contient que des caractères ascii peut être cp1252 ou utf-8.
    Si l'on connaît le type d'encodage utilisé par le fichier texte à lire Il faut mettre en paramètre du open, l'encodage utilisé dans le fichier. Exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    open(r'D:\temp\utf8.txt',encoding='utf-8')
    Citation Envoyé par Sve@r Voir le message
    Pas du tout, c'est un standard. W10 (et peut-être W7) sont en utf8 par défaut.
    Désolé Sve@r de te contredire mais l'encodage par défaut pour Windows 10 en version française c'est du cp1252.
    Pour le vérifier il faut lancer dans une invite de commande Powershell :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    [System.Text.Encoding]::Default
    Et voilà ce que moi j'obtiens pour un Windows 10 Edition familiale :
    IsSingleByte : True
    BodyName : iso-8859-1
    EncodingName : Europe de l'Ouest (Windows)
    HeaderName : Windows-1252
    WebName : Windows-1252
    WindowsCodePage : 1252
    IsBrowserDisplay : True
    IsBrowserSave : True
    IsMailNewsDisplay : True
    IsMailNewsSave : True
    EncoderFallback : System.Text.InternalEncoderBestFitFallback
    DecoderFallback : System.Text.InternalDecoderBestFitFallback
    IsReadOnly : True
    CodePage : 1252
    Ami calmant, J.P

Discussions similaires

  1. Réponses: 0
    Dernier message: 12/11/2020, 08h17
  2. Réponses: 1
    Dernier message: 18/02/2012, 15h20
  3. python 3.1 sous WIndows
    Par alcofribas dans le forum Général Python
    Réponses: 2
    Dernier message: 02/10/2009, 14h46
  4. Encodage UTF-8 sous windows
    Par cancrat dans le forum Langage
    Réponses: 2
    Dernier message: 15/11/2007, 15h35
  5. probleme apache+module python sous windows
    Par gaussprodada dans le forum Réseau/Web
    Réponses: 1
    Dernier message: 02/11/2004, 21h09

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo