-
Hello,
Je ne sais pas exactement ce que tu veux faire ni la difficulté qui est possible. Quelques liens :
http://citeseer.ist.psu.edu/directory.html : rubrique information retrieval
http://www.emse.fr/~beigbeder/IR/tutorials.html : refs du cours que j'ai eu, malheureusement je ne trouve plus le cours à proprement parler sur la page.
Sinon dans un moteur de recherche, il faut rechercher information retrieval, ou recherche d'information. Le modèle qui semble évoqué au long des posts est le modèle vectoriel.
Recherche aussi les termes tf (terms frequency) et idf (inverse document frequency).
Bon courage, :wink:
-
Merci à tous.
La méthode de compression: j'en ai entendu parler en effet, mais "on" ne m'a pas poussé pour creuser dans cette direction. De toutes façons, vu le volume, ça ne me parait pas réaliste. Toute méthode de complexité O(N²) ou pire semble proscrite.
Il me faut du précalculé, a moins que je puisse avoir des résultats en temps réel. Ce que je doute.
J'ai actuellement donc quelques 600000 documents à regrouper par similitude. Et la collection grossit quotidiennement.
Je ne l'avais pas dit, mais vous l'aviez sans doute deviné :wink:, c'est pour un site web.
J'en suis maintenant à essayer de comprendre les travaux d'un certain Kohonen sur les SOM (Self-Organizing Maps):
http://www.cis.hut.fi/research/som-research/
Merci encore.
-
Une vulgarisation:
http://www.ai-junkie.com/ann/som/som1.html
-
Voilà, une première implémentation est faite. Et les résultats sont encourageants.
Les étapes sont nombreuses, chacune ayant son lot de paramètres choisis avec un certain empirisme.
J'ai ainsi dans un premier temps construit une représentation des documents qui constitue leur "empreinte".
C'est probablement l'étape la plus délicate car il est difficile de garantir que les empreintes sont suffisamment représentatives de leur document associé.
Ces empreintes peuvent ensuite être comparées les unes aux autres ou à des empreintes de référence.
Pour construire des empreintes de référence, j'ai utilisé les SOM. C'est pour cette techno que j'ai trouvé le plus d'infos pour une mise en application rapide.
Merci encore à tous.