IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

indexation, recherche et extraction d'infos


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut indexation, recherche et extraction d'infos
    Bonjour,

    Mon objectif est de faire une composition multi-video en utilisant leurs transcriptions audio (clased caption).
    A partir d'une requête par mots-cles d'un utilisateur, je veux faire un algo (une sorte de meteur) qui retourne les "meilleures" séquences parmi les vidéos (une video est représentée par sa transcription .srt) de la base de données textuelles off-line, du point de vue sémantique.

    Pour l'instant j'ai opté pour l'analyse sémantique latente.
    Avec cette méthode, je construis un espace sémantique latente, et une pour requête, je peux avoir les documents les plus similaires à la requête, mais mon objectif est d'avoir les séquences plus similaires à la requête.

    Question: quelle genre d'algo permettrait de mieux représenter ce problème

    Merci par avance

    PJ: fichier srt (mais que j'ai mis en .txt)
    NB: un exemple de trois séquences d'une vidéo
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     
    1
    00:00:00,000 --> 00:00:04,026
    Now that we've seen a few examples of
    historic cyphers, all of which are badly
     
    2
    00:00:04,026 --> 00:00:04,076
    broken, we're going to switch gears and
    talk about cyphers that are much better
     
    3
    00:00:04,076 --> 00:00:13,011
    designed. But before we do that, I want to
    first of all, define more precisely what a
    Fichiers attachés Fichiers attachés

  2. #2
    Expert confirmé Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Par défaut
    je construis un espace sémantique latente, et une pour requête ... mais mon objectif est d'avoir les séquences plus similaires à la requête.
    Les séquences sont relativement incompatibles avec les techniques d'espace sémantique latent qui usuerllement ne traitent que des ensembles non ordonnés de mots.

    Pour traiter les séquences, il faut au minimum noter la position de l'occurence dans le texte (requête ou document) puis augmenter le rang des documents dans lesquels on retouve des séquences de la requête, par exemple si mot2 suit mot1 dans la requète : Augmenter_rang() si Index_texte(mot2) - index_texte(mot1) = 1

  3. #3
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    Merci pour la reponse.

    En fait, j'utilise les techniques semantiques latentes de la maniere suivante:
    1. je fais un pre-traitements morpho-syntaxique (normalisation des textes, etiquettage des mots (categorie gramaticale), filtrage des stops-words (and, or, then,...), eliminer les nombres et les chiffres de sorte a obtenir un texte non ordonné).
    2. J'utilise ensuite le modele LSA (LSI) pour l'indexation
    3. Je projette la requete dans l'espace semantique et je calcule sa similarite avec tous les documents et je prends les 10 premiers resultats (documents).

    Mon probleme est une fois que j'obtiens ces resultats, je dois faire une analyse de deuxieme niveau sur les sequences de ces dix documents .srt ( notion de sequence et d'ordre).
    Je dois considerer 10 documents srt composés de n1,n2,...,n10 sequences (respectivement) et trouver les "meilleurs" sequences du points de vue semantique par rapport a la requette et fairer la composition

    Mon idee etait de considerer un deuxieme corpus dans lequel chaque sequence des dix documents, representera un document et je fais une LSA à nouveau pour trouver les sequences proches de la requete.

    Merci, pour vos indications et orientations

Discussions similaires

  1. [XL-2007] recherche cellule et mettre info dans la premiere cellule vide
    Par croky23 dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 21/04/2009, 13h24
  2. recherche et extraction de l'information
    Par rom05 dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 25/04/2008, 09h48
  3. aide (Sommaire,index,recherche) en vb.net
    Par niceen dans le forum VB.NET
    Réponses: 4
    Dernier message: 22/04/2007, 12h40
  4. [MySQL] Moteur d'indexation / recherche
    Par hemi1 dans le forum PHP & Base de données
    Réponses: 1
    Dernier message: 12/01/2007, 21h13
  5. Recherche Logiciel Extraction Audio
    Par Sami Xite dans le forum Audio
    Réponses: 2
    Dernier message: 24/10/2006, 20h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo