Encodage des fichiers et programme

**Amirel** · 19/04/2013, 13h55

Bonjour;

J'ai un programme où je dois extraire tous les verbes au passé composé, mon fichier de base est un fichier .chat, en le copiant en Notpad++ j'ai découvert q'il est codé en ANSI j'ai fais la conversion en UTF-8 et le l'ai enregistré en .txt. Cependant dans mon programme je dois récupérer les verbes trouvés dans le texte et les comparer avec les verbes que je dois chercher (stockés dans une liste de string). Pour ceci j'ai ajouté # -*- coding: utf-8 -*- mais il n'arrive pas à comparer les verbes puisque il considère ils ont pas le même encodage. Merci pour votre réponse.

**wiztricks** · 19/04/2013, 14h24

Salut,
L'en-tête "# -*- coding: utf-8 -*-" ne s'applique qu'aux scripts Python.
Ce sont des fichiers "texte" utilisés par votre éditeur favori et l'interpréteur Python. S'ils contiennent des caractères accentués, il faut indiquer "l'encoding" qui devra être utilisé pour les stocker et les afficher.

j'ai découvert q'il est codé en ANSI

L'ANSI est un institut américain qui s'occupe de définir les "standards". Un équivalent en France serait l'AFNOR. Dans le contexte, çà ne veut pas dire grand chose. Cela n'a aucune importance: vous débutez! Ceci dit, si vous voulez qu'on comprenne ce que vous faites: postez du code et indiquez la version de Python utilisée.

Cependant dans mon programme je dois récupérer les verbes trouvés dans le texte et les comparer avec les verbes que je dois chercher (stockés dans une liste de string)

Poster du code sert aussi à se caler à votre niveau:

Si j'écris:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
import io
from collections import Counter
verbes = [ 'mot1', 'mot2', ...]
data = Counter(io.open('ficher', 'r', encoding='utf-8').read().split())
print ([ for m in verbes if m in data ])

Ca fera peut être ce que vous attendez mais, pour vous, çà ne sera que du charabia.
- W

**tyrtamos** · 19/04/2013, 15h41

Bonjour,

ANSI: c'est comme ça que Microsoft appelle son encodage Windows (cp1252). Exemple: dans son éditeur de texte "bloc-notes", si on fait "enregistrer sous", l'encodage ANSI est proposé.

Python sait bien faire les conversions entre 2 encodages, en passant systématiquement par l'unicode interne. Par exemple:

ch = chaine encodée en cp1252, on la veut en urf-8:

=> ch.decode('cp1252').encode('utf-8')

Dans cet exemple, ch.decode('cp1252') convertit la chaine en unicode interne. C'est d'ailleurs sous cette forme que les chaines peuvent être traitées le plus facilement en mémoire. Ainsi, si on veut comparer ch1 encodé en 'cp1252' (encodage Windows) et ch2 encodé en 'cp850' (encodage de la console DOS cmd.exe):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
if ch1.decode('cp1252')==ch2.decode('cp850'):
    ....

Mais, bien sûr, Python ne peut pas deviner en quel encodage se trouve des chaines récupérées quelque part. Il faut essayer plusieurs encodage jusqu'à ce que ça marche. Dans certains cas, on peut utiliser un éditeur hexa qui permet de lire le fichier octet par octet pour voir comment un 'é', par exemple, est encodé, et en déduire l'encodage.

Encodage des fichiers et programme

Python

Discussions similaires

Partager

Partager