Bonjour,
est ce que vous connaissez des moyens (methodes, algorithmes) pour la segmentation de texte pour les genres de fichier .srt (transcription de la bade sonore d'une video) ?
L'objectif est d'avoir des segments de texte coherents et "continu" par rapport au contenu:
par exemple, sur le fichier de depart, si on considere chaque partie comme etant un segment, on aura, le segment 1 qui fini dans le deux, ...

Je veux un moyen de re-structurer le fichier en segment et en ayant pour chaque segement, l'heure de debut et celle de la fin.

Exemple fichier
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
 
1
00:00:00,000 --> 00:00:04,052
Now that we know about the one-time pad,
let's talk about making the one-time pad
 
2
00:00:04,052 --> 00:00:08,088
more practical using something called the
stream cypher. But before we do that,
 
3
00:00:08,088 --> 00:00:13,057
let's do a quick review of where we were.
So let me just remind you that a cypher is
 
4
00:00:13,057 --> 00:00:18,020
defined over a triple of sets called a key
space, a message space, and a cypher text
 
5
00:00:18,020 --> 00:00:22,039
bare space. And a cypher is a pair of
efficient algorithms called E and D; E
 
6
00:00:22,039 --> 00:00:27,008
stands for encryption and D stands for
decryption. And the only property. That we