indexation, recherche et extraction d'infos

**MMDM12** · 26/06/2012, 12h02

Bonjour,

Mon objectif est de faire une composition multi-video en utilisant leurs transcriptions audio (clased caption).
A partir d'une requête par mots-cles d'un utilisateur, je veux faire un algo (une sorte de meteur) qui retourne les "meilleures" séquences parmi les vidéos (une video est représentée par sa transcription .srt) de la base de données textuelles off-line, du point de vue sémantique.

Pour l'instant j'ai opté pour l'analyse sémantique latente.
Avec cette méthode, je construis un espace sémantique latente, et une pour requête, je peux avoir les documents les plus similaires à la requête, mais mon objectif est d'avoir les séquences plus similaires à la requête.

Question: quelle genre d'algo permettrait de mieux représenter ce problème

Merci par avance

PJ: fichier srt (mais que j'ai mis en .txt)
NB: un exemple de trois séquences d'une vidéo

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
1
00:00:00,000 --> 00:00:04,026
Now that we've seen a few examples of
historic cyphers, all of which are badly
 
2
00:00:04,026 --> 00:00:04,076
broken, we're going to switch gears and
talk about cyphers that are much better
 
3
00:00:04,076 --> 00:00:13,011
designed. But before we do that, I want to
first of all, define more precisely what a

**Graffito** · 27/06/2012, 01h55

je construis un espace sémantique latente, et une pour requête ... mais mon objectif est d'avoir les séquences plus similaires à la requête.

Les séquences sont relativement incompatibles avec les techniques d'espace sémantique latent qui usuerllement ne traitent que des ensembles non ordonnés de mots.

Pour traiter les séquences, il faut au minimum noter la position de l'occurence dans le texte (requête ou document) puis augmenter le rang des documents dans lesquels on retouve des séquences de la requête, par exemple si mot2 suit mot1 dans la requète : Augmenter_rang() si Index_texte(mot2) - index_texte(mot1) = 1

**MMDM12** · 27/06/2012, 11h35

Merci pour la reponse.

En fait, j'utilise les techniques semantiques latentes de la maniere suivante:
1. je fais un pre-traitements morpho-syntaxique (normalisation des textes, etiquettage des mots (categorie gramaticale), filtrage des stops-words (and, or, then,...), eliminer les nombres et les chiffres de sorte a obtenir un texte non ordonné).
2. J'utilise ensuite le modele LSA (LSI) pour l'indexation
3. Je projette la requete dans l'espace semantique et je calcule sa similarite avec tous les documents et je prends les 10 premiers resultats (documents).

Mon probleme est une fois que j'obtiens ces resultats, je dois faire une analyse de deuxieme niveau sur les sequences de ces dix documents .srt ( notion de sequence et d'ordre).
Je dois considerer 10 documents srt composés de n1,n2,...,n10 sequences (respectivement) et trouver les "meilleurs" sequences du points de vue semantique par rapport a la requette et fairer la composition

Mon idee etait de considerer un deuxieme corpus dans lequel chaque sequence des dix documents, representera un document et je fais une LSA à nouveau pour trouver les sequences proches de la requete.

Merci, pour vos indications et orientations

indexation, recherche et extraction d'infos

Algorithmes et structures de données

Vue hybride

Discussions similaires

Partager

Partager