python 2.7.3 UnicodeWarning

**khaled87** · 28/12/2013, 05h23

Bonjour a tous

pour charger un fichier .txt j'ai fait ça

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
 
 
def charge_fichier(nomFile,cpt_doc):
    global nb_doc
    f=codecs.open(nomFile,'r','utf-8')
    if(not f):return 0;
    nb_doc+=1;
    t=f.read()
    t=t.lower()
    a=t.split()
    for mot in a:
        if(not (mot,cpt_doc) in freq0 ):
            freq0[mot,cpt_doc]=a.count(mot)
            n0[mot]+=1
    f.close()
    for (mot ,doc) in freq0 :
        poid0[mot,doc]=freq0[mot,doc]*log(nb_doc/n0[mot]+1,10)
##      bool
    index_bool(indexBoolean_0,a,cpt_doc);
 
    a=[porteur.stem(x)for x in a if not x in ignored_words]
    for mot in a:
        if(not (mot,cpt_doc) in freq1 ):
            freq1[mot,cpt_doc]=a.count(mot)
            n1[mot]+=1
    f.close()
    for (mot ,doc) in freq1 :
        poid1[mot,doc]=freq1[mot,doc]*log(nb_doc/n1[mot]+1,10)
 
    index_bool(indexBoolean_1,a,cpt_doc);
 
    return 1;

mais une erreur UnicodeWarning s'affiche dans la ligne

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

a=[porteur.stem(x)for x in a if not x in ignored_words]

comme suite :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
 
 a=[porteur.stem(x)for x in a if not x in ignored_words]
UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal

pour éviter cette erreur j'ai enregistré le fichier en UTF-8 ''notpade++''

et j'ai fait ça aussi

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
 
# -*- coding: utf-8 -*-
import codecs

mais toujours la meme erreur s'affiche

Merci pour vos repense

**tyrtamos** · 28/12/2013, 07h36

Bonjour,

Ce qui est lu avec codecs.open est en unicode. Il faudrait donc voir quel est l'encodage de ignored_words.

**khaled87** · 28/12/2013, 09h42

Envoyé par tyrtamos

Bonjour,

Ce qui est lu avec codecs.open est en unicode. Il faudrait donc voir quel est l'encodage de ignored_words.

Merci pour votre repense

lignored_words est un fichier .txt avec un encodage UTF-8 (sans BOM)

alors comment je peut régler le problème ?

Merci

**tyrtamos** · 28/12/2013, 09h53

Envoyé par khaled87

alors comment je peut régler le problème ?

En le lisant aussi avec codecs.open(..., 'r', 'utf-8') pour qu'il soit aussi en unicode en mémoire.

**khaled87** · 28/12/2013, 10h29

Envoyé par tyrtamos

En le lisant aussi avec codecs.open(..., 'r', 'utf-8') pour qu'il soit aussi en unicode en mémoire.

mais si je veut lire mon document charger avec utf-8 sans BOM ?

**tyrtamos** · 28/12/2013, 10h51

Si tu veux laisser "ignored_words" en 'utf-8', tu peux aussi convertir le 'x' de "if not x in ignored_words" en utf-8 comme suit: "if not x.encode('utf-8') in ignored_words".

L'objectif, pour répondre au warning, est que la condition 'in' se fasse entre des chaines ayant le même encodage.

**khaled87** · 28/12/2013, 11h03

Envoyé par tyrtamos

Si tu veux laisser "ignored_words" en 'utf-8', tu peux aussi convertir le 'x' de "if not x in ignored_words" en utf-8 comme suit: "if not x.encode('utf-8') in ignored_words".

L'objectif, pour répondre au warning, est que la condition 'in' se fasse entre des chaines ayant le même encodage.

tyrtamos je vous remerci infiniment pour vos conseille ,enfin ça marche trés bien

python 2.7.3 UnicodeWarning

Python

Discussions similaires

Partager

Partager