IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Multimédia Java Discussion :

fichier .srt sous-titrage video


Sujet :

Multimédia Java

  1. #1
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut fichier .srt sous-titrage video
    Bonjour,
    est ce que vous connaissez des moyens (methodes, algorithmes) pour la segmentation de texte pour les genres de fichier .srt (transcription de la bade sonore d'une video) ?
    L'objectif est d'avoir des segments de texte coherents et "continu" par rapport au contenu:
    par exemple, sur le fichier de depart, si on considere chaque partie comme etant un segment, on aura, le segment 1 qui fini dans le deux, ...

    Je veux un moyen de re-structurer le fichier en segment et en ayant pour chaque segement, l'heure de debut et celle de la fin.

    Exemple fichier
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
     
    1
    00:00:00,000 --> 00:00:04,052
    Now that we know about the one-time pad,
    let's talk about making the one-time pad
     
    2
    00:00:04,052 --> 00:00:08,088
    more practical using something called the
    stream cypher. But before we do that,
     
    3
    00:00:08,088 --> 00:00:13,057
    let's do a quick review of where we were.
    So let me just remind you that a cypher is
     
    4
    00:00:13,057 --> 00:00:18,020
    defined over a triple of sets called a key
    space, a message space, and a cypher text
     
    5
    00:00:18,020 --> 00:00:22,039
    bare space. And a cypher is a pair of
    efficient algorithms called E and D; E
     
    6
    00:00:22,039 --> 00:00:27,008
    stands for encryption and D stands for
    decryption. And the only property. That we

  2. #2
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 586
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 586
    Par défaut
    Ben, ton fichier est déjà comme ça, non ?

    (Par ailleurs, l'idée n'est pas forcément bonne. Parfois un sous-titre est trop long pour qu'on puisse raisonnablement l'enlever avant d'afficher le suivant.)
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  3. #3
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    En fait, j'ai un algorithme pour resumer une video, il selectionne les segments (selon des scores).
    Si je considere cette segmentation, l'algorithme peut par exemple selectionner les segments 1 et 4 mais pas 2,ni 3 ... ainsi de suite, et dans ce cas j'aurais des trous par ce que j'aurais des phrases inachées.

    Pour la longueur des sous-titres dans mon cas, ils ne depasse pas 8 seconde.
    PJ: fichier .srt
    Fichiers attachés Fichiers attachés

  4. #4
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 586
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 586
    Par défaut
    Ça suffit pas de donner juste un fichier.
    - Quel genre de fichier as-tu au départ
    - Qu'est-ce qui ne te convient pas
    - Quel genre de fichier cherches-tu à avoir à la place ?

    Enfin quoi, tu te doutes bien qu'on va pas le deviner.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  5. #5
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    Citation Envoyé par thelvin Voir le message
    Ça suffit pas de donner juste un fichier.
    - Quel genre de fichier as-tu au départ
    - Qu'est-ce qui ne te convient pas
    - Quel genre de fichier cherches-tu à avoir à la place ?

    Enfin quoi, tu te doutes bien qu'on va pas le deviner.
    Je ne joue pas au devinette ici, depuis le debut je parle de segmentation.

    Le fichier de depart est le fichier joint en post3.
    Ce qui ne me convient pas, c'est ce que j'ai cité plus haut, à savoir ne pas avoir des segments contenants des phrases interrompues.

  6. #6
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 586
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 586
    Par défaut
    Autant que possible, je voudrais ne pas épiloguer, mais tu devrais te rendre compte que "phrase" est un mot-clé important qui a à peine été abordé, alors que "segmentation" est secondaire.
    Ton problème, c'est que des "phrases" sont "coupées" en cela qu'elles sont "réparties" dans plusieurs "trucs." Alors qu'il faudrait qu'elles soient "entières" dans un seul "truc."

    Bon, et puis tu ne nous as pas parlé de ce que tu cherches à produire comme "version corrigée" :
    - un autre fichier .srt qui est pile comme tu veux ?
    - une correction en ligne pendant que tu lis le fichier ?
    - Comment tu détermines le début et la fin d'une phrase, au juste ? Il suffit d'un point qui manque et tout tombe par terre ?
    - Une fois qu'une phrase a été reconstituée en un seul endroit, qu'est-ce qui décide de l'heure où elle a commencé et où elle a fini ? Peut-être que ce n'est pas important pour ton fameux algorithme ?

    Pour t'aider à parser un fichier .srt, tu peux t'inspirer de google-video-subtitles-parser vu que Google utilise les .srt.
    Ou alors emprunter la classe SrtParser de la bibli mp4parser, en respectant sa license quand même.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  7. #7
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    Mon "fameux algorithme" est un algorithme de clustering basé sur la LSI probabiliste qui selectionne des cluster en basant sur des criteres semantique pour une requete donnée.
    Ce que je cherche à comprendre c'est la structure et la representation des fichiers .srt, pour une une "bonne" clustering, et rien sur mon "fameux algorithme" !

  8. #8
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 586
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 586
    Par défaut
    Citation Envoyé par MMDM12 Voir le message
    Mon "fameux algorithme" est un algorithme de clustering basé sur la LSI probabiliste qui selectionne des cluster en basant sur des criteres semantique pour une requete donnée.
    Ce qui ne nous dit absolument pas si les heures de début et de fin font partie de ces fameux critères sémantiques. Et je rappelle que c'était un petit peu la question.

    Citation Envoyé par MMDM12 Voir le message
    Ce que je cherche à comprendre c'est la structure et la representation des fichiers .srt, pour une une "bonne" clustering, et rien sur mon "fameux algorithme" !
    On est dans le forum multimédia, pas LSI. Je n'ai pas la moindre idée de ce que ta méthode a besoin de voir pour faire du bon clustering, et je ne vois pas pourquoi quelqu'un qui le saurait, viendrait ici. De plus, je doute que ce soit pour tout le monde pareil dans le domaine de la LSI, donc, pas moyen, tu dois te décider à expliquer ce que tu veux.

    Quant aux fichiers .srt, il n'y a rien à comprendre :
    "Afficher ceci de tel moment à tel moment, et passer au suivant."
    Si tu cherches un moyen de les parser, je t'en ai donné deux.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  9. #9
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    Merci pour tes fameuses reponses.
    Dans le fameux post1, j'ai mis "Je veux un moyen de re-structurer le fichier en segment et en ayant pour chaque segement, l'heure de debut et celle de la fin.",

    Pour eviter toutes ces fameuses questions

  10. #10
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 586
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 586
    Par défaut
    Ma foi, tu as l'air confiant dans le fait que tu es en train de demander quelque chose de parfaitement clair. J'en ai douté, et ai fait tout mon possible pour t'expliquer en quoi, et comment.
    Apparemment ce n'est pas convainquant, hé, peut-être que je me trompe. Qui sait, quelqu'un d'autre va peut-être comprendre exactement quelle est ta question, et va venir t'aider à l'étudier.

    Tous mes vœux et encouragements en attendant.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  11. #11
    Modérateur

    Avatar de Robin56
    Homme Profil pro
    Architecte de système d'information
    Inscrit en
    Juin 2009
    Messages
    5 297
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Architecte de système d'information

    Informations forums :
    Inscription : Juin 2009
    Messages : 5 297
    Par défaut
    Comme l'a mentionné thelvin, ce que tu demandes ne nous parait pas très clair même si pour toi, étant dedans, ça l'est.

    Pourrais tu nous préciser la chose par un exemple du genre :
    1. Un exemple du fichier
    2. Un exemple de ce que tu veux en sortie
    Ça permettrait simplement de déjà bien clarifier les choses.
    Responsable Java de Developpez.com (Twitter et Facebook)
    Besoin d'un article/tutoriel/cours sur Java, consulter la page cours
    N'hésitez pas à consulter la FAQ Java et à poser vos questions sur les forums d'entraide Java
    --------
    Architecte Solution
    LinkedIn : https://www.linkedin.com/in/nicolascaudard/

  12. #12
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Par défaut
    Merci Robin56.

    Pour etre plus simple, je dirais que mon objectif est de segementer une video en sequences (scenes, shots).
    J'ai vu dans la litterature (PJ: page 4, paragraphe 5) qu'une façon d'y parvenir etait d'utiliser la pause audio de la bande sonore comme critere, en faisant du "audio processing",i.e:
    • 1 du debut de la video, jusqu'à la premiere pause audio (quand le locuteur arrete de parler durant un bref instant) constitue le premier segment
    • 2 apres la premiere pause, jusqu'à la deuxieme, constitue le deuxieme segement.
    • 3 ...


    Dans mon cas, je dispose de videos et de leurs fichiers .srt et je voudrais faire quelque chose de similaire, mais en utilisant d'autres criteres(pour l'instant je ne sais pas trop les quels) et obtenir à la fin quelque chose de la sorte (pas de phrase découpée entre deux segments):

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
     
    1
    00:00:00,000 --> 00:00:04,000
    In this segment, I want to give a few
    examples of stream ciphers that are used in practice.
     
    2
    00:00:04,000 --> 00:00:010,007
    I'm gonna start with two old examples that actually are not
    supposed to be used in new systems.
     
     
    3
    00:00:010,007 --> 00:00:18,001
    But nevertheless, they're still fairly widely used, and so I just want to mention
    the names so that you're familiar with these concepts.
     
    4
    00:00:19,016 --> 00:00:25,008
    The first stream cipher I want to talk about is called RC4, designed back in 1987. 
    And I'm only gonna give you the high-level description of it, and then we'll talk 
    about some weaknesses of RC4 and leave it at that.

    Par exemple, j'ai besoin de connaitre la durée moyenne d'une sequence video en general.
    Au debut je considerais chaque partie du fichier .srt comme etant une sequence, mais le probleme est qu'il y aura dans ce cas des phrases debutant dasn une sequence et finissant dans une autre et je veux reduire ce probleme.
    Images attachées Images attachées

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Éditeur de sous-titres (fichier .srt).
    Par Batman90 dans le forum Développement Web en Java
    Réponses: 2
    Dernier message: 26/10/2017, 21h57
  2. Modification d'un sous-titrage video en live
    Par levit dans le forum Flash
    Réponses: 15
    Dernier message: 29/03/2007, 22h03
  3. Réponses: 5
    Dernier message: 06/03/2003, 14h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo