encodage de fichier texte

**julien.63** · 02/11/2009, 11h48

Salut,
J'utilise un petit script python tout bête pour lire des fichiers logs.
Mais le problème ce que j'obtients des lignes de ce genre là :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

'\xff\xfeT\x00i\x00m\x00e\x00s\x00t\x00a\x00m\x00p\x00 \x00 \x00 \x00 \x00 \x00...

Je pense que c'est un problème d'encodage du fichier mais je ne sais pas quoi utiliser dans python pour réencoder ces données pour les rendre exploitable.

Si j'ouvre le fichier et que je le sauvegarde tel quel, alors c'est bon, je peux le lire.
Petite précision, les fichiers viennent d'un windows server 2003 et je suis sous ubuntu...

Merci pour vos éclairages

**aepli** · 02/11/2009, 16h09

Bonjour,

Est ce que tes fichiers sont bien du texte ?
As tu utiliser au début de ton script une balise du genre ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

# -*- coding:Utf-8 -*-

Comme tu dis être sous Ubuntu, que donne la commande file <nom_du_fichier_de_log> dans un terminal ?

Salutations.

**tyrtamos** · 02/11/2009, 17h11

Bonjour,

Si l'exemple que tu as donné est bien le début du fichier texte, il semble qu'il y ait un "FF FE", caractéristique du BOM de l'UTF-16 little Indian (http://fr.wikipedia.org/wiki/Byte_Order_Mark).

Tu pourrais donc lire lire le fichier comme suit en utilisant le module codecs (http://docs.python.org/library/codecs.html):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import codecs
 
L = []
f = codecs.open(nomduficher, 'r', 'utf_16_le')
for ligne in f:
    L.append(ligne.rstrip('\r\n'))
f.close

Voilà, les lignes de ton fichier sont en unicode Python dans la liste L en mémoire ram.

Maintenant, si tu veux les afficher, il faut que tu connaisses l'encodage de ta console d'affichage. Pour la connaitre:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import sys
print sys.stdout.encoding

En imaginant que ce soit utf-8 (probable avec Ubuntu), il faudrait afficher comme suit:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
for ligne in L:
    print ligne.encode('utf_8')

J'ai fait ça de mémoire sans tester: essaye!

Tyrtamos

**PauseKawa** · 03/11/2009, 07h10

Bien vu tyrtamos,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
>>> a = '\xff\xfeT\x00i\x00m\x00e\x00s\x00t\x00a\x00m\x00p\x00 \x00 \x00 \x00 \x00 \x00'
>>> print unicode(a, 'UTF16')
Timestamp     
>>>

Petit edit pour julien.63 :

Envoyé par julien.63

Si j'ouvre le fichier et que je le sauvegarde tel quel, alors c'est bon, je peux le lire.

C'est que ton editeur comprend l'utf-16 en lecture mais l'encode avec son codec en écriture.
Le fichier source et celui écrit sont différents. Utilise len et tu ne trouveras pas les mêmes résultats.

ps: Trouver de l'utf-16 juste avec \xff\xfe alors que j'en suis encore à me battre avec les codec can't decode byte... Pas mal tyrtamos

**DelphiManiac** · 03/11/2009, 18h25

Envoyé par PauseKawa

ps: Trouver de l'utf-16 juste avec \xff\xfe alors que j'en suis encore à me battre avec les codec can't decode byte... Pas mal tyrtamos

Juste un petit complément d'information, ce ne sont pas des informations obligatoires pour un fichier codé en UTF, mais juste préconisé.

L'acronyme correspondant à ces données est : BOM.

Ici une petite faq : http://unicode.org/faq/utf_bom.html#bom1

Si tu utilises l'éditeur texte notepad++, dans le menu format tu as les options pour transformer ton fichier en utf ou en national avec ou sans BOM.

**julien.63** · 05/11/2009, 11h06

Merci pour vos réponses.

J'ai essayé en utilisant la library codes et ça fonctionne bien.

Par contre, en utilisant unicode et l'encode UTF16, j'ai un message d'erreur.
voici ce que j'ai fait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
In [2]: f = open('HEIMDALL-20091103-1154.log')
 
In [3]: l = f.readline()
 
In [4]: l
Out[4]: '\xff\xfeT\x00i\x00m\x00e\x00s\x00t\x00a\x00m\x00p\x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00\t\x00P\x00r\x00o\x00c\x00e\x00s\x00s\x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00\t\x00T\x00I\x00D\x00 \x00 \x00 \x00\t\x00A\x00r\x00e\x00a\x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00\t\x00C\x00a\x00t\x00e\x00g\x00o\x00r\x00y\x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00 \x00\t\x00E\x00v\x00e\x00n\x00t\x00I\x00D\x00\t\x00L\x00e\x00v\x00e\x00l\x00 \x00 \x00 \x00 \x00 \x00\t\x00M\x00e\x00s\x00s\x00a\x00g\x00e\x00 \x00\t\x00C\x00o\x00r\x00r\x00e\x00l\x00a\x00t\x00i\x00o\x00n\x00\r\x00\n'
 
In [5]: print(unicode(l, 'UTF16'))
 
UnicodeDecodeError                        Traceback (most recent call last)
 
/home/julien/Desktop/SPlog/03112009/<ipython console> in <module>()
 
/usr/lib/python2.6/encodings/utf_16.pyc in decode(input, errors)
     14 
     15 def decode(input, errors='strict'):
---> 16     return codecs.utf_16_decode(input, errors, True)
     17 
     18 class IncrementalEncoder(codecs.IncrementalEncoder):
 
UnicodeDecodeError: 'utf16' codec can't decode byte 0x0a in position 350: truncated data

encodage de fichier texte

Python

Vue hybride

Discussions similaires

Partager

Partager