Deviner l'encodage d'un fichier TEXTE

**rambc** · 05/07/2010, 11h51

Bonjour,
je voudrais pouvoir deviner l'encodage d'un fichier TEXTE, ceci afin de permettre aux utilisateurs non avertis de mon projet d'avoir la possibilité d'utiliser des textes ne respectant pas l'UTF-8, pour bien entendu ensuite écraser leur fichier en un ayant pour encodage l'UTF-8, encodage avec lequel travaille mon projet.

Il semblerait qu'il y ait une solution ici dans l'excellent "Dive Into Python 3".

L'avez-vous testé ? En connaissez-vous d'autres ?

**wiztricks** · 05/07/2010, 14h59

Salut

As -tu lu les précautions d'emploi de chardet?

Le problème de conception de fond est assez "basique", mais mérite de s'y attarder un peu.
Règle 1: Un traitement sur "du texte" travaille avec de l'Unicode, i.e des caractères codés avec des entiers 16 bits (ou plus).
Règle 2: Décoder le plus tôt possible et encoder le plus tard possible...

Conséquence: on ne devine qu'en cas de désespoir, on garde l'encoding utilisé dans le cas "normal".

Ce qui signifie:
- pouvoir stocker/lire des documents dans n'importe quel encoding pour peu qu'on sache ce qu'il est (et que les codeurs/décodeurs existent).
- UTF-8 est un standard de représentation de l'Unicode sous la forme de bytes. C'est très bien pour 'stocker', 'échanger', mais impropre aux traitements qui transforment la suite de bytes en suite de mots Unicode.
- W

**rambc** · 05/07/2010, 15h40

Envoyé par wiztricks

Conséquence: on ne devine qu'en cas de désespoir, on garde l'encoding utilisé dans le cas "normal".

C'est bien l'idée. L'utilisateur aura le choix de l'encodage à l'ouverture, et une recommandation lui sera faite de passer à du codage UTF-8 lors de l'enregistrement.
Maintenant, pour un utilisateur qui n'y connait rien, qui ne sait pas ce qu'est un encodage, je proposerais via chardet des encodages possibles avec bien entendu un visuel à côté du fichier original avant toute modification. Au final, c'est l'utilisateur qui dira que l'encodage est bon et non mon programme.

Envoyé par wiztricks

UTF-8 est un standard de représentation de l'Unicode sous la forme de bytes. C'est très bien pour 'stocker', 'échanger', mais impropre aux traitements qui transforment la suite de bytes en suite de mots Unicode.

Je vois pas le problème. Avec Python 3 je ne manipule plus que des fichiers codés en UTF-8 sans aucun souci... Peux-tu préciser ton propos ? Il faut savoir que je vais travailler sur des fichiers TEXTE qui seront des documents rédigés par un humain pour des humains.

**wiztricks** · 05/07/2010, 16h07

Ben...

Envoyé par rambc

C'est bien l'idée. L'utilisateur aura le choix de l'encodage à l'ouverture, et une recommandation lui sera faite de passer à du codage UTF-8 lors de l'enregistrement.

Je ne sais pas quel est l'IHM mais pour pour l'encoding de l'utilisateur est dans la locale ou la default locale... Et comme l'utilisateur sait rarement ce que c'est, je ne vois pas l'intérêt de lui poser une question à laquelle on aura une réponse incertaine alors qu'on peut avoir la réponse par ailleurs.

Je vois pas le problème. Avec Python 3 je ne manipule plus que des fichiers codés en UTF-8 sans aucun souci... Peux-tu préciser ton propos ? Il faut savoir que je vais travailler sur des fichiers TEXTE qui seront des documents rédigés par un humain pour des humains.

Dans Python 3 il y a des bytes (encodés utf-8 par défaut) et des strings Unicode (des séquences de codepoints).
J'espère les traitements se font sur des strings Unicode et les résultats/entrées convertis en bytes à la lecture/écriture des fichiers.
- W

**rambc** · 06/07/2010, 13h45

Envoyé par wiztricks

Je ne sais pas quel est l'IHM mais pour pour l'encoding de l'utilisateur est dans la locale ou la default locale... Et comme l'utilisateur sait rarement ce que c'est, je ne vois pas l'intérêt de lui poser une question à laquelle on aura une réponse incertaine alors qu'on peut avoir la réponse par ailleurs.

Hum, je ne te suis plus... J'ai été personnellement heurté au problème d'encodage lors de mon passage de Windaube à Mac O$. Une fois le problème repéré, j'avais utilisé NotePad+ sous Windaube pour passer de l'encodage Windaube cp... à de l'UTF-8. C'est ce genre de chose que je voudrais faire.

Quant l'utilisateur qui ne sait rien sur les encodages, ce qui était mon cas sous NotePad++, et bien c'est à eux que je proposerais une aide via une fenêtre avec le fichier ouvert avec différents encodages que l'on pourra choisir dans une liste. On a un rendu direct et on peut dire qu'un encodage est bon dans la mesure où le rendu ne renvoie aucun caractère mystique.

**wiztricks** · 06/07/2010, 14h46

Salut,

Envoyé par rambc

Hum, je ne te suis plus... J'ai été personnellement heurté au problème d'encodage lors de mon passage de Windaube à Mac O$.

Une fois le problème repéré, j'avais utilisé NotePad+ sous Windaube pour passer de l'encodage Windaube cp... à de l'UTF-8. C'est ce genre de chose que je voudrais faire.

Répétons, répétons,... c'est la base de la pédagogie

Un fichier contient (à priori) une suite de "bytes" représentant du texte.
Exemple: Un script Python contenant autre chose que de l'ASCII doit être renseigné avec l'encoding pour être 'utilisable'.
L'encoding "connu" convertir les bytes en Code Points Unicode ne pose aucun souci.
S'il y a soucis, c'est dans la fonction inverse i.e. impossible d'écrire l'ensemble des Code Points Unicode en "bytes" Latin-1.

Pire, la valeur d'un byte pourra correspondre à des glyphs différents si on passe de latin-1 en latin-10.

Ceci dit si l'environnement "utilisateur" est configuré "latin-1", on sait l'encodage dans lequel seront récupérées les "'bytes" et celui dans lequel les écrire.

Quant l'utilisateur qui ne sait rien sur les encodages, ce qui était mon cas sous NotePad++, et bien c'est à eux que je proposerais une aide via une fenêtre avec le fichier ouvert avec différents encodages que l'on pourra choisir dans une liste. On a un rendu direct et on peut dire qu'un encodage est bon dans la mesure où le rendu ne renvoie aucun caractère mystique.

Le problème est que l'ensemble des traitements qui sont susceptibles de représenter la suite de "bytes" doivent savoir faire correspondre un entier ou une suite d'entiers à des "glyphs" bien particuliers.

Ce qui suppose qu'on leur envoie des représentations dans un encoding particulier ou qu'on leur précise l'encoding dans lequel l'information est codée pour qu'il s'en accommodent.

Exemple: Afficher le contenu du document avec l'utilitaire x ou y suppose que x et y sachent interpréter format et encodage... Et on a aussi envie que le document imprimé ressemble à ce qu'on voit sur l'écran, voir qu'on soit capable de faire des "cut" d'un bout de document qu'on paste dans un autre programme.

Le codage de nos bytes (utf-8) ou autre dépendant aussi du media type, si cela n'a pas été un minimum "pensé" et "construit" pour que ce soit transparent, cela restera:
- un casse tête sans fin pour l'utilisateur,
- des tas d'ennuis côté assistance/maintenance/ajout de fonctionnalités

- W

Deviner l'encodage d'un fichier TEXTE

Python

Vue hybride

Discussions similaires

Partager

Partager