Bonjour,
Mon objectif est de faire une composition multi-video en utilisant leurs transcriptions audio (clased caption).
A partir d'une requête par mots-cles d'un utilisateur, je veux faire un algo (une sorte de meteur) qui retourne les "meilleures" séquences parmi les vidéos (une video est représentée par sa transcription .srt) de la base de données textuelles off-line, du point de vue sémantique.
Pour l'instant j'ai opté pour l'analyse sémantique latente.
Avec cette méthode, je construis un espace sémantique latente, et une pour requête, je peux avoir les documents les plus similaires à la requête, mais mon objectif est d'avoir les séquences plus similaires à la requête.
Question: quelle genre d'algo permettrait de mieux représenter ce problème
Merci par avance
PJ: fichier srt (mais que j'ai mis en .txt)
NB: un exemple de trois séquences d'une vidéo
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 1 00:00:00,000 --> 00:00:04,026 Now that we've seen a few examples of historic cyphers, all of which are badly 2 00:00:04,026 --> 00:00:04,076 broken, we're going to switch gears and talk about cyphers that are much better 3 00:00:04,076 --> 00:00:13,011 designed. But before we do that, I want to first of all, define more precisely what a
Partager