TFIDF : AttributeError

**phlam** · 08/10/2010, 16h31

Bonjour,
Je voudrais calculer le TF.IDF pour calculer le poids sémantique de chaque terme d'un texte. J'ai un petit programme dans lequel il y a la fonction suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
def tfidf(word, document, documentList):
    return (tf(word,document) * idf(word,documentList))
if __name__ == '__main__':
    documentList = [glob.glob('C:\\Documents and Settings\\*.*')]
    documentList.append(open('*.*','r'))
     words = {}
documentNumber = 0
for word in documentList[documentNumber].split(None):
    words[word] = tfidf(word,documentList[documentNumber],documentList)

J'ai deux problèmes : 1/ j'ai un coprus de plusieurs textes mais je ne sais pas si ma ligne "documentList.append(open('*.*','r'))" me permet de prendre en compte tous les textes et 2/ j'ai une erreur de type "for word in documentList[documentNumber].split(None):AttributeError: 'list' object has no attribute 'split' . Je me creuse la tête de puis un moment sans trouver la solution... est-ce que quelqu'un pourrait m'aider SVP ? Merci.

**phlam** · 10/10/2010, 23h24

J'ai modifié un peu mon code avec l'ajout de :
for document in os.listdir('path'):
fichier = open(document,'r')
content= fichier.readlines()
Pour lire tous les fichiers de mon répertoire.

Maintenant, l'erreur initiale concernant le split a disparu pour être remplacé par "IndexError: list index out of range" C'est donc apparemment un problème de liste mais je ne comprends pas trop où ça cloche...

**Matthieu Brucher** · 12/10/2010, 22h17

Utilise le débuggeur pour savoir quelle est la liste qui plante.

Ton premier bug est que documentList = [glob.glob('C:\\Documents and Settings\\*.*')] retourne une liste, tu veux sans doute ôter le [] pour avoir une liste de chaînes de caractères !

TFIDF : AttributeError

Calcul scientifique Python

Vue hybride

Discussions similaires

Partager

Partager