TFIDF : AttributeError

Version imprimable

Bonjour,
Je voudrais calculer le TF.IDF pour calculer le poids sémantique de chaque terme d'un texte. J'ai un petit programme dans lequel il y a la fonction suivante :
Code:

1 2 3 4 5 6 7 8 9 def tfidf(word, document, documentList): return (tf(word,document) * idf(word,documentList)) if __name__ == '__main__': documentList = [glob.glob('C:\\Documents and Settings\\*.*')] documentList.append(open('*.*','r')) words = {} documentNumber = 0 for word in documentList[documentNumber].split(None): words[word] = tfidf(word,documentList[documentNumber],documentList)
J'ai deux problèmes : 1/ j'ai un coprus de plusieurs textes mais je ne sais pas si ma ligne "documentList.append(open('*.*','r'))" me permet de prendre en compte tous les textes et 2/ j'ai une erreur de type "for word in documentList[documentNumber].split(None):AttributeError: 'list' object has no attribute 'split' . Je me creuse la tête de puis un moment sans trouver la solution... est-ce que quelqu'un pourrait m'aider SVP ? Merci.

10/10/2010, 23h24
phlam

J'ai modifié un peu mon code avec l'ajout de :
for document in os.listdir('path'):
fichier = open(document,'r')
content= fichier.readlines()
Pour lire tous les fichiers de mon répertoire.

Maintenant, l'erreur initiale concernant le split a disparu pour être remplacé par "IndexError: list index out of range" C'est donc apparemment un problème de liste mais je ne comprends pas trop où ça cloche...
12/10/2010, 22h17
Matthieu Brucher

Utilise le débuggeur pour savoir quelle est la liste qui plante.

Ton premier bug est que documentList = [glob.glob('C:\\Documents and Settings\\*.*')] retourne une liste, tu veux sans doute ôter le [] pour avoir une liste de chaînes de caractères !