Compter ne nombre de ligne d'un fichier donne erreur "UnicodeDecodeError"

**raydonovan** · 20/07/2018, 11h05

Bonjour,

Je m'acharne tant bien que mal a vouloir compter le nombre de lignes d'un fichier.
Le problème c'est à un moment de parsage du fichier, je vois une erreur "UnicodeDecodeError" apparaître.

Script:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
import io
 
def file_lengthy(fname):
        #with open(fname,encoding='utf-8') as f:
        with io.open(fname) as f:
                for i, l in enumerate(f):
                        print(l.rstrip("\n"))
                        pass
        return i + 1
 
#wordfile to use
wordfile = "/home/gr3g/ctf/wordlist/rockyou.txt"
 
#print("Number of lines in the file: ",file_lengthy("test.txt"))
print("Number of lines in the file: ",file_lengthy(wordfile))

Erreur:

$ python3 filelength.py
[...]
pernille1
pernes
pernambucano
permatang
permataku
permatahati
Traceback (most recent call last):
File "filelength.py", line 15, in <module>
print("Number of lines in the file: ",file_lengthy(wordfile))
File "filelength.py", line 6, in file_lengthy
for i, l in enumerate(f):
File "/usr/lib/python3.5/codecs.py", line 321, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 940: invalid continuation byte

La suite du dictionnaire c'est :

601939 perman
601940 permainan
601941 perlucha
601942 perliza
601943 perlittapmf
601944 perlita99
601945 perling
601946 perlax
601947 perlar
601948 perlamassiel
601949 perlam
601950 perla8
601951 perla21
601952 perla10
601953 perl1ta
601954 perky2
601955 perkutut

Donc il n'y a pas de mots qui nécessitent un encodage spécifique si ?

Merci

**wiztricks** · 20/07/2018, 11h12

Salut,

Envoyé par raydonovan

Donc il n'y a pas de mots qui nécessitent un encodage spécifique si ?

L'erreur mentionne le byte '0xf1' à la position 940 et dit que ce n'est pas de l'UTF-8.
Si vous ne voulez pas "décoder", lire le fichier en mode binaire et compter les '\n' suffirait.

- W

**raydonovan** · 20/07/2018, 11h22

Effectivement ce code fonctionne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
def file_lengthy(fname):
        with open(fname,'rb') as f:
                for i, l in enumerate(f):
                        #print(l)
                        pass
        return i + 1 
 
#wordfile to use
wordfile = "/home/gr3g/ctf/wordlist/rockyou.txt"
 
print("Number of lines in the file: ",file_lengthy(wordfile))

Mais quand je mettais 'rb' tout en enlevant les \n, ça me générait une erreur je me rappelle !

Merci en tout cas

**lg_53** · 20/07/2018, 12h02

Si vous n'utiliser pas le enumerate alors autant l'enlever ...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
def file_lengthy(fname):
        with open(fname,'rb') as f:
                n = len(f)
        return n + 1

**fred1599** · 20/07/2018, 12h34

Il y avait la source ICI.

**raydonovan** · 20/07/2018, 16h32

Envoyé par lg_53

Si vous n'utiliser pas le enumerate alors autant l'enlever ...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
def file_lengthy(fname):
        with open(fname,'rb') as f:
                n = len(f)
        return n + 1

Oui du coup, ce nouveau code fonctionne parfaitement:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
def file_lengthy(fname):
        i=0
        with open(fname,'rb') as f:
                for l in f:
                        i=i+1
        return i

merci

**Sve@r** · 21/07/2018, 00h48

Bonjour

Envoyé par raydonovan

Oui du coup, ce nouveau code fonctionne parfaitement:

Dans ce cas, autant simplifier

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
def file_lengthy(fname):
	with open(fname,'rb') as f:
		return len(tuple(f))

@lg_53: on ne peut pas demander directement len(f) car l'objet "file" n'a pas de méthode "len". D'où le cast en tuple...

**lg_53** · 21/07/2018, 11h41

Envoyé par Sve@r

@lg_53: on ne peut pas demander directement len(f) car l'objet "file" n'a pas de méthode "len". D'où le cast en tuple...

En effet !

Compter ne nombre de ligne d'un fichier donne erreur "UnicodeDecodeError"

Python

Discussions similaires

Partager

Partager