Bonjour, unicode n'a pas un format unique mais peut être encodée de diverses manières. Ici, les 3 premiers octets correspondent au BOM UTF-8, il s'agit donc de ce format.
En Python, lis le fichier sous forme binaire (important sous Windows) et puis decode l'UTF8 pour récupérer le contenu sous forme de chaîne unicode:
1 2
| data = open("fichier.txt", "rb").read()
chaine = data.decode('UTF8') |
Pour l'afficher, il faut de nouveau l'encoder dans le codec du périphérique de sortie. Normalement, python s'en chargera tout seul et tu peux te contenter de faire un print de la chaîne unicode, mais occasionnellement il faut utiliser la méthode encode avec le bon codec, par exemple
print chaine.encode("iso8859-1")
Partager