Bonjour,
Dans le cadre d'un cours de Recherche d'Information au sein d'une école d'ingénieur, un exercice propose de créer un programme en Python qui indexe les documents contenu dans un ou plusieurs fichiers, chaque document étant introduit dans une nouvelle ligne par la séquence : <doc><docno>document identifier </docno>.
Le programme d'index doit permettre un accès par terme à la liste de tous les documents contenants ce terme (appelé document frequency : df). Le programme devrait également pouvoir compter le nombre de fois qu'un terme apparait dans un terme (appelé terme frequency : tf)
Afin de créer et faire fonctionner ce programme j'aurais besoin d'importer un fichier contenant les documents, et je ne sais pas comment procéder : http://www.emse.fr/~mbeig/ORI-2012/I...-1-10-NoSem.gz
Serait-il possible de m'indiquer quelques astuces pour monter ce programme, et importer les documents à indexer ?
Merci d'avance!
Partager