editer un fichier en UTF-8

**Manu300886** · 04/05/2012, 11h59

Bonjour,

j'automatise une édition de fichier XML à partir de données présente en base.

Une fois le fichier créé, mon script lance une commande maven permettant à mon appli web de prendre en compte les données du fichier XML.

Une fois le fichier parsé, j'ai un problème d'encodagem les "é" remplacé par "?".

Voici ce que j'ai essayé de faire et qui ne marche pas :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
MonFichier=open(repertoire + '/toto.xml','w')
 
MaVar = """ du texte """
 
MonFichier.write(MaVar .encode('UTF-8')) 
 
MonFichier.close()

Quand, dans notepad, je passe l'encodage du fichier en UTF-8 manuellement, mon problème est résolu.

Merci d'avance pour votre aide !

Manu

**VinsS** · 04/05/2012, 12h26

Tu enregistres ton fichier avec l'extension .xml, Notepad attendait sans doute la déclaration d'encodage et, à défaut, a choisit ascii.

Si tu ajoutes cet entête à ton fichier, ça donne quoi:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
<?xml version="1.0" encoding="UTF-8"?>

**Manu300886** · 04/05/2012, 14h14

si je rajoute cette entete, maven me jette en declarant que le mot "UTF-8" ne doit pas etre utilisé dans mon fichier.

C'est vraiment a cause de l'encodage car si je l'encode manuellement en UTF8 et que je relance ma tache maven, tout se passe bien et mon texte est bien encodé.

Je vais essayer comme ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

MonFichier.write(MaVar).encode('UTF-8')

alors que je faisais comme ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

MonFichier.write(MaVar .encode('UTF-8'))

car c'est plus le fichier qu'on encode que la variable texte.

Je te tiens au courant.

**Manu300886** · 04/05/2012, 14h35

non, dans ce cas c'est une erreur

**mont29** · 04/05/2012, 15h51

Hehe, non, on encode pas un fichier, on encode un str, en python*!

Il faut comprendre qu’un fichier est toujours, in fine, des bytes (ou octets). Quand python ouvre un fichier en mode texte, il va implicitement faire les conversions bytes→str (en lecture) ou str→bytes (en écriture), en utilisant l’encodage par défaut du système (utf-8 sous la plupart des *nix, un truc genre cp-12xx sous windaube…).

Si on reprend ton premier exemple, pour être sûr d’enregistrer MaVar en utf-8, tu as deux solutions*:

1) Tu précises quel encodage utiliser lors de l’ouverture du fichier en écriture*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
MaVar = """ du texte """
 
with open(repertoire + '/toto.xml', 'w', encoding="utf-8") as MonFichier: 
    MonFichier.write(MaVar) 
# pas besoin de MonFichier.close() avec with…:

2) Tu ouvres ton fichier en mode binaire ('wb'), et tu assures toi-même l’encodage de ta str en bytes*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
MaVar = """ du texte """
 
with open(repertoire + '/toto.xml', 'wb') as MonFichier: 
    MonFichier.write(MaVar.encode("utf-8")) 
# pas besoin de MonFichier.close() avec with…:

Attention, tout ce qui précède est en py3, py2 était encore plus pénible dans la gestion chaîne de texte/d’octets…

**Manu300886** · 04/05/2012, 18h28

merci mont !

content de t'avoir fais rire

le script que je fais est en jython (java for python) et je crois bien que ce n'est pas compatible py3.

La syntaxe "with open" ne marche pas.
J'ai lancé le code suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
repertoire = 'C:/temp'
MaVar = """ régle de fou ça """
 
MonFichier = open(repertoire + '/toto.xml','wb')
MonFichier.write(MaVar.encode("utf-8")) 
MonFichier.close()