IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Similitude entre documents


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé

    Profil pro
    Inscrit en
    Avril 2004
    Messages
    346
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 346
    Par défaut
    Hello,

    Je ne sais pas exactement ce que tu veux faire ni la difficulté qui est possible. Quelques liens :
    http://citeseer.ist.psu.edu/directory.html : rubrique information retrieval
    http://www.emse.fr/~beigbeder/IR/tutorials.html : refs du cours que j'ai eu, malheureusement je ne trouve plus le cours à proprement parler sur la page.
    Sinon dans un moteur de recherche, il faut rechercher information retrieval, ou recherche d'information. Le modèle qui semble évoqué au long des posts est le modèle vectoriel.
    Recherche aussi les termes tf (terms frequency) et idf (inverse document frequency).
    Bon courage,

  2. #2
    Membre éclairé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Par défaut
    Merci à tous.

    La méthode de compression: j'en ai entendu parler en effet, mais "on" ne m'a pas poussé pour creuser dans cette direction. De toutes façons, vu le volume, ça ne me parait pas réaliste. Toute méthode de complexité O(N²) ou pire semble proscrite.

    Il me faut du précalculé, a moins que je puisse avoir des résultats en temps réel. Ce que je doute.

    J'ai actuellement donc quelques 600000 documents à regrouper par similitude. Et la collection grossit quotidiennement.
    Je ne l'avais pas dit, mais vous l'aviez sans doute deviné , c'est pour un site web.

    J'en suis maintenant à essayer de comprendre les travaux d'un certain Kohonen sur les SOM (Self-Organizing Maps):
    http://www.cis.hut.fi/research/som-research/

    Merci encore.

  3. #3
    Membre éclairé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Par défaut
    Une vulgarisation:
    http://www.ai-junkie.com/ann/som/som1.html

  4. #4
    Membre éclairé
    Inscrit en
    Avril 2005
    Messages
    1 110
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 1 110
    Par défaut
    Voilà, une première implémentation est faite. Et les résultats sont encourageants.

    Les étapes sont nombreuses, chacune ayant son lot de paramètres choisis avec un certain empirisme.

    J'ai ainsi dans un premier temps construit une représentation des documents qui constitue leur "empreinte".
    C'est probablement l'étape la plus délicate car il est difficile de garantir que les empreintes sont suffisamment représentatives de leur document associé.

    Ces empreintes peuvent ensuite être comparées les unes aux autres ou à des empreintes de référence.

    Pour construire des empreintes de référence, j'ai utilisé les SOM. C'est pour cette techno que j'ai trouvé le plus d'infos pour une mise en application rapide.

    Merci encore à tous.

+ Répondre à la discussion
Cette discussion est résolue.
Page 2 sur 2 PremièrePremière 12

Discussions similaires

  1. Réponses: 5
    Dernier message: 13/11/2008, 21h35
  2. Recherche similitudes entre 2 colonnes
    Par hassenssas dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 28/05/2008, 21h20
  3. Réponses: 0
    Dernier message: 15/04/2008, 13h57
  4. [Access]Lien entre document word et access
    Par chriswhite06 dans le forum Access
    Réponses: 2
    Dernier message: 12/04/2007, 17h32
  5. Réponses: 5
    Dernier message: 27/05/2004, 16h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo