Ouvrir un fichier en chinois dans Spider

Version imprimable

04/07/2017, 10h23
Anonyme1784

Ouvrir un fichier en chinois dans Spider
Bonjour,

Pour utiliser du Chinois dans la lecture de fichier sur Python :
Code:

1 2 3 # -*- coding: utf-8 -*- with open("1300001717.txt", "rb") as f: print(f.read().decode('gb2312','ignore'))
04/07/2017, 14h45
fred1599

Quelle version python as-tu ?
04/07/2017, 15h37
Anonyme1784

Citation:

Envoyé par fred1599

Quelle version python as-tu ?

Merci :)
J'ai téléchargé la dernière version de anaconda, j'ai utilise Spyder, il y a écrit Python 3.6
04/07/2017, 15h43
fred1599
Normalement tu ne devrais pas avoir de problème pour lire du chinois avec cette version...

Essayes de forcer l'encodage en te mettant en mode binaire
Code:

1 2 3 with open('monfichier.txt', 'rb') as f: content = f.read() # bytes print(content.decode('utf8')) # str
Mais normalement il n'y a pas besoin de cet artifice avec python 3.x, l'unicode est supporté d'origine.
04/07/2017, 15h55
Anonyme1784
Avec decode j'ai une erreur :
print(contenu.decode('utf8'))
AttributeError: 'str' object has no attribute 'decode'

Et sinon quand je fais ce code suivant ca me mets pas les caracteres chinois mais ce que j'aiu deja decrit au dessus :
Code:

1 2 3 4 5 6 7 fichier = open("test.txt", "r") contenu = fichier.read() contenu2 = contenu print(contenu) print(contenu.encode('utf8')) print(contenu2.encode('utf8').decode('utf8')) fichier.close()
04/07/2017, 16h02
fred1599

J'ai pas mis le mode "r" mais le mode "rb".
04/07/2017, 16h30
Anonyme1784

Citation:

Envoyé par fred1599

J'ai pas mis le mode "r" mais le mode "rb".

Autant pour moi !
Resultat :
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte

Mouais j'ai un petit doute, essayes voir
Code:

1 2 with open("test.txt", encoding="latin-1") as f: print(f.read())

04/07/2017, 16h53
Anonyme1784
Citation:
Envoyé par fred1599

Code:

1 2 with open("test.txt", encoding="latin-1") as f: print(f.read())
Jai exactement execute ce code et jai un retour du genre ÐÒìÒé£¬ÇëÔÚÏÂÒ»½ .....etc....
04/07/2017, 17h10
fred1599
Dernière solution
Code:

1 2 with open("test.txt") as f: print(f.read().decode('gb2312','ignore').encode('UTF-8'))
EDIT: Peut-être faudra-t-il le mode 'rb' si cela ne fonctionne pas...
04/07/2017, 17h16
Anonyme1784
Code:

1 2 3 # -*- coding: utf-8 -*- with open("test.txt") as f: print(f.read().decode('gb2312','ignore').encode('UTF-8'))
print(f.read().decode('gb2312','ignore').encode('UTF-8'))
AttributeError: 'str' object has no attribute 'decode'
04/07/2017, 17h17
fred1599

Voir mon edit du topic ci-dessus
04/07/2017, 17h25
Anonyme1784

Jai oublie de preciser que "rb" me donne des trucs du genre

xb0\x9d\x80:\xe4\xe5\x9b\
04/07/2017, 17h49
fred1599

C'est normal ça te renvoie des bytes, mais pour avoir du type str, il faut utiliser la méthode decode...

Normalement, tu vas devrais pas utiliser cette manière de faire, python 3.x utilise l'unicode.

Code:

1
2
3
4
# -*- coding: utf-8 -*-
 
with open("1300001717.txt", "rb") as f:
    print(f.read().decode('gb2312','ignore'))

Genial merci bcp !!!

04/07/2017, 18h02
fred1599

Ouais c'est la solution que j'ai proposé ICI.
04/07/2017, 20h06
wiztricks

Salut,

Pourquoi écrire f.read().decode('gb2312','ignore').encode('UTF-8') plutôt que f.read().decode('ascii','ignore').encode('UTF-8') ?
Dans les deux cas, on va obtenir un résultat non intègre - puisqu'on vire tout ce qui n'est pas "conforme" - et pas forcément utilisable.

- W
05/07/2017, 08h16
Anonyme1784

Citation:

Envoyé par fred1599

Ouais c'est la solution que j'ai proposé ICI.

J'ai du enlever le encode ut8 parce que sinon jai TypeError: a bytes-like object is required, not 'str'