Bonjour,
Je cherche un code pour implémenter l'algorithme tf-idf avec l'api Lucene ou Solr. J'ai implémenté le code par moi même mais il était lent surtout que je vais l'utiliser sur un grand nombre des fichiers.
Je pense que ce deux api proposes des techniques efficaces pour éliminer les 'stopwords' ainsi que calcuer les valeurs tf-idf d'une manière efficace.
J'ai cherché sur le net pour appliquer ce technique en utilisant ce deux api mais sans vain, je pense que c'est sûre qu'il y-a déjà des codes permettant de calculer ces valuers tf-idf.
En effet, j'ai un ensemble des dossiers, chaque dossier contient un ensemble des fichiers textes et l'objectif est de déterminer les valeurs tf-idf de tous les mots qui existent dans ces fichiers texte.
Toute information sera le bien venue et Merci d'avance.
Partager