IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

RI - Information Retrieval


Sujet :

Calcul scientifique Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2014
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2014
    Messages : 2
    Points : 3
    Points
    3
    Par défaut RI - Information Retrieval
    Bonjour,

    Dans le cadre d'un cours de Recherche d'Information au sein d'une école d'ingénieur, un exercice propose de créer un programme en Python qui indexe les documents contenu dans un ou plusieurs fichiers, chaque document étant introduit dans une nouvelle ligne par la séquence : <doc><docno>document identifier </docno>.

    Le programme d'index doit permettre un accès par terme à la liste de tous les documents contenants ce terme (appelé document frequency : df). Le programme devrait également pouvoir compter le nombre de fois qu'un terme apparait dans un terme (appelé terme frequency : tf)

    Afin de créer et faire fonctionner ce programme j'aurais besoin d'importer un fichier contenant les documents, et je ne sais pas comment procéder : http://www.emse.fr/~mbeig/ORI-2012/I...-1-10-NoSem.gz

    Serait-il possible de m'indiquer quelques astuces pour monter ce programme, et importer les documents à indexer ?

    Merci d'avance!

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour,

    Concernant l'analyse du texte, tu peux utiliser la librairie NLTK pour isoler les termes du document.

    Elle te permettra d'éviter de faire des expressions régulières pour isoler les termes.

    De plus si tu as un dictionnaire avec les radicaux tel que Lexique 380 tu pourras radicaliser les termes de ton document.

    Cordialement.

Discussions similaires

  1. Réponses: 2
    Dernier message: 10/07/2009, 17h12
  2. Réponses: 12
    Dernier message: 08/03/2006, 17h27
  3. [SAP DB] Information
    Par aem_ dans le forum SAP
    Réponses: 6
    Dernier message: 07/04/2003, 22h54
  4. [PostgreSQL] Informations générales.
    Par nicox dans le forum PostgreSQL
    Réponses: 3
    Dernier message: 11/03/2003, 09h47
  5. [PRO*C] Recherche information
    Par Anonymous dans le forum Interfaces de programmation
    Réponses: 2
    Dernier message: 04/04/2002, 17h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo