Problème avec les chardet depuis passage en V3

Version imprimable

Bonjour tout le monde,

J'ai une fonction qui marche bien en V2 mais depuis que je suis passé en V3 ça ne marche plus.
Code:

1 2 3 4 5 6 7 8 def get_file_encoding(filepath): raw_data = open(filepath, "r").read() # chardet is not compatible with context manager result = chardet.detect(raw_data) if result.get('confidence') > .5: char_enc = result.get('encoding') else: char_enc = 'utf-8' return char_enc
J'ai le message :
Expected object of type bytes or bytearray, got: <class 'str'>

En fouillant, j'ai trouvé d'où ce message venait :
Code:

1 2 3 4 5 6 7 8 9 10 11 def detect(byte_str): """ Detect the encoding of the given byte string. :param byte_str: The byte sequence to examine. :type byte_str: ``bytes`` or ``bytearray`` """ if not isinstance(byte_str, bytearray): if not isinstance(byte_str, bytes): raise TypeError('Expected object of type bytes or bytearray, got: ' '{0}'.format(type(byte_str)))
(code tiré de la librairie)

Le problème est donc qu'il attend un type byte et là c'est vu en string.

j'ai alors essayé de convertir en bytes mais que neni :

Code:

result = chardet.detect(str.encode(raw_data))

Donne :

Citation:

'str' object has no attribute 'decode'

Voyez-vous comment je peux faire marcher cette fonction en python V3 SVP ? Je ne vois plus comment faire ?

D'avance, merci pour votre réponse et aide !!

16/04/2020, 21h44
wiztricks

Salut,

Citation:

Envoyé par soad029

Voyez-vous comment je peux faire marcher cette fonction en python V3 SVP ? Je ne vois plus comment faire ?

Si chardet attend des bytes dans raw_data, il faut mettre des bytes dans raw_data. raw_data étant le contenu du fichier, le lire en mode binaire devrait suffire.

- W
17/04/2020, 11h38
soad029

Bonjour Wiztrick
Merci bcp pour votre réponse.
Je l ai ouvert avec les options "rb"
Mais j ai toujours le même message, c est trop étrange..

Salut,

Citation:

Envoyé par soad029

Je l ai ouvert avec les options "rb"
Mais j ai toujours le même message, c est trop étrange..

C'est pas compliqué à reproduire:

Code:

1
2
3
4
5
6
7
8
9
>>> import chardet
>>> raw_data = open('zzzz.py').read()
>>> chardet.detect(raw_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\py_env\py64_38\lib\site-packages\chardet\__init__.py", line 33, in de
tect
    raise TypeError('Expected object of type bytes or bytearray, got: '
TypeError: Expected object of type bytes or bytearray, got: <class 'str'>

et à corriger:

Code:

1
2
3
4
>>> raw_data = open('zzzz.py', 'rb').read()
>>> chardet.detect(raw_data)
{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
>>>

- W

17/04/2020, 12h13
soad029
Oui désolé, en fait ça marchait bien (le nouille...), le message que j'ai provient d'un autre problème

Maintenant j'ai ce message :
'str' object has no attribute 'decode'
Code:

1 2 3 4 data = f.read(max_file_size) try: data = data.decode(char_enc, errors="replace") # type: ignore
Je regarde pourquoi j'ai ça.. si jamais vous voyez sans trop chercher je suis preneur sinon je continue mes recherches.

Merci bcp en tout cas, gràce à vous j'avance !
17/04/2020, 12h25
wiztricks

Salut,

Si "data" est "str", c'est que le fichier n'a pas été ouvert en mode binaire.
Si c'est le même fichier que le fichier précédent, çà ne devrait pas être.

Si c'est un autre fichier, vous connaissez son "encoding", autant faire faire le boulot de "décodage" à Python (en le passant à open).

- W

Merci pour votre aide.

En fait c'est le même fichier mais là c'est dans la main que l'ouverture se fait :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
    with open(file_path, 'r') as f:
        data = f.read(max_file_size)
        try:
            data = data.decode(char_enc, errors="replace")  # type: ignore
        except LookupError:
            return_error('Encoding type was not found. Please try another.')
        data = data.encode('utf-8')
 
    if data:
        message = 'Read {} bytes from file.'.format(len(data))
        result = {"Type": entryTypes["note"],
                  "ContentsFormat": formats["text"],
                  "Contents": {"FileData": data},
                  "HumanReadable": message,
                  "EntryContext": {"FileData": data}
                  }
    else:
        return_error('No data could be read.')

Donc là j'ai l'impression qu'il faudrait que je l'ouvre en binaire pour avoir le decode puis en read pour la suite du programme ?

17/04/2020, 12h55
wiztricks

Salut,

Citation:

Envoyé par soad029

Donc là j'ai l'impression qu'il faudrait que je l'ouvre en binaire pour avoir le decode puis en read pour la suite du programme ?

Le contenu du fichier a déjà été lu dans raw_data.
chardet vous dit l'encoding est sans doute machin.
Donc raw_data.decode(machin)

Pourquoi relire le fichier encore une fois?
Et si c'est nécessaire, pourquoi ne pas le faire avec l'encoding retourné par chardet.

Vu de loin, çà manque un peu de suite dans les idées...

- W
17/04/2020, 13h16
soad029

Vous avez raison.
En tout cas maintenant ça marche.
Merci pour votre aide précieuse.