encodage utf-8, remplacer 'Ã©' en 'é' dans une string pour un fichier mal codé

Version imprimable

14/12/2017, 23h41
KR_Prog

encodage utf-8, remplacer 'Ã©' en 'é' dans une string pour un fichier mal codé

Bonjour,
j'ai fais un script de comparaison de fichiers, or il arrive que les fichiers soient encodés de façon pas terrible, je voudrai rendre mon script plus tolérant.
Voici le genre de chose sur laquelle je tombe:
'Ã©' qui est en fait un 'é'

j'ai ouvert le fichier qui est bien en utf-8, comme ceci:

Code:

fichier_a = codecs.open(fichier_a_lien, encoding='utf-8')

mais notepad++ ne fait pas mieux.

en fait j'aimerai remplacer les 'Ã©' par des 'é', mais comment?

merci d'avance
15/12/2017, 00h10
marco056

avec la fonction replace ?
15/12/2017, 00h21
KR_Prog

Citation:

Envoyé par marco056

avec la fonction replace ?

merci pour ta réponse,

j'ai déjà essayé:

Code:

convert = ligne.replace('Ã©', 'é')

et aussi comme ceci:

Code:

convert = ligne.replace('\xc3\xa9', 'é')

mais il ne remplace rien
15/12/2017, 07h35
wiztricks

Salut,

Citation:

Envoyé par KR_Prog

en fait j'aimerai remplacer les 'Ã©' par des 'é', mais comment?

Normalement, c'est le décodage effectué à la lecture du fichier qui devrait transformer la séquence de bytes b'\xc3\xa9' en 'é'. Si cela ne le fait pas il est préférable d'essayer de comprendre pourquoi avant de trouver une solution palliative. Et donc poster un exemple de contenu de fichier et opérations que vous faites dessus pour reproduire ce résultat.

- W
15/12/2017, 12h35
marco056

Citation:

Envoyé par wiztricks

Salut,

Normalement, c'est le décodage effectué à la lecture du fichier qui devrait transformer la séquence de bytes b'\xc3\xa9' en 'é'. Si cela ne le fait pas il est préférable d'essayer de comprendre pourquoi avant de trouver une solution palliative. Et donc poster un exemple de contenu de fichier et opérations que vous faites dessus pour reproduire ce résultat.

- W

J'allais le proposer.

Bonjour,

Comme dit précédemment, vaut mieux corriger le problème à la source
Sinon d'après ce que tu dis, tu es dans la situation où l'on te donne un "é" en utf8 dés le départ mais celui qui réceptionne (quelque part dans la chaine) , pense que c'est de l'iso-latin et transforme donc ton "iso latin" en utf8, ce qui donne:
é de départ en utf8 => \xc3\xa9
\xc3 en iso-latin => Ã qui en utf8 est => \xc3\x89
\xa9 en iso-latin => © qui en utf8 est => \xc2\xa9

Et donc en final, tu te retrouves avec: \xc3\x89 \xc2\xa9

Si tu n'as vraiment pas le choix, une idée plus propre que le replace:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 >>> YY 'maman va à la plage' >>> try: ... YY.encode("latin1").decode() ... except UnicodeError: ... YY ... 'maman va à la plage' >>> XX 'papa Ã© la maison' >>> try: ... XX.encode("latin1").decode() ... except UnicodeError: ... XX ... 'papa é la maison'