Bonjour,
Je voudrais calculer le TF.IDF pour calculer le poids sémantique de chaque terme d'un texte. J'ai un petit programme dans lequel il y a la fonction suivante :
J'ai deux problèmes : 1/ j'ai un coprus de plusieurs textes mais je ne sais pas si ma ligne "documentList.append(open('*.*','r'))" me permet de prendre en compte tous les textes et 2/ j'ai une erreur de type "for word in documentList[documentNumber].split(None):AttributeError: 'list' object has no attribute 'split' . Je me creuse la tête de puis un moment sans trouver la solution... est-ce que quelqu'un pourrait m'aider SVP ? Merci.Code:
1
2
3
4
5
6
7
8
9 def tfidf(word, document, documentList): return (tf(word,document) * idf(word,documentList)) if __name__ == '__main__': documentList = [glob.glob('C:\\Documents and Settings\\*.*')] documentList.append(open('*.*','r')) words = {} documentNumber = 0 for word in documentList[documentNumber].split(None): words[word] = tfidf(word,documentList[documentNumber],documentList)