IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Du text mining


Sujet :

R

  1. #1
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Points : 97
    Points
    97
    Par défaut Du text mining
    Bonjour,
    J'ai un fichier de sous-titrage de vidéo et mon objectif est de résumer la vidéo.
    Pour cela, mon idée est, dans un premier temps, de supprimer les parties ne contenant pas les mots-clés de la requête de l'utilisateur.

    Ci-joint un fichier .srt déjà divisé en 125 parties. J'ai envie de créer un vecteur ou une liste dont chaque élément est une partie de ce fichier.
    Une fois que j'aurais etabli la liste des mots-clés, j'ai envie de retourner les parties ne contenant que ces mots-clés.

    Merci.
    Fichiers attachés Fichiers attachés

  2. #2
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Points : 97
    Points
    97
    Par défaut
    Bonjour,
    Je reformule ma question.
    Supposons que j'ai ce fichier :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
     
    1
    00:00:00,000 --> 00:00:04,034
    Now we're gonna talk about text
    processing. The most basic and fundamental
     
    2
    00:00:04,034 --> 00:00:09,016
    tool we have for text processing is the
    regular expression. And regular expression
     
    3
    00:00:09,016 --> 00:00:13,068
    is a formal language for specifying text
    strings. So let's suppose that we're
     
    4
    00:00:13,068 --> 00:00:18,069
    looking for woodchucks in a text document,
    Woodchucks can be expressed in a number of
     
    5
    00:00:18,069 --> 00:00:23,014
    ways. We could have a singular woodchuck,
    we could have the plural S at the end. We
     
    6
    00:00:23,014 --> 00:00:26,093
    could have a capital letter at the
    beginning, or a lower case, and any
    et je cherche à le découper et stocker dans un vecteur de la sorte :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     S1<-   :00:00:00,000 --> 00:00:04,034
    Now we're gonna talk about text
    processing. The most basic and fundamental
    c'est-à-dire la 1ère partie,
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     S2<-   00:00:04,034 --> 00:00:09,016
    tool we have for text processing is the
    regular expression. And regular expression
    la 2ème partie, etc...

    Merci.

  3. #3
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Points : 97
    Points
    97
    Par défaut
    Bonjour,
    finalement j'ai fait ainsi:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
     
    #library(ISwR)
    library(stringr)
    kk <- read.delim("D:/script_R/srt_files/srtfile.srt",sep="\t", as.is=TRUE)
    names(kk)
    class(kk)
    kk <- as.matrix(kk)
    num <-ifelse(str_detect(kk[,1], "^[1-9]")==TRUE,1,0)
    num <- matrix(num,ncol=1)
    aa <- which(num>0) # les numeros des lignes de coupures
    aa <- c(aa,length(kk[,1])) # on ajoute le num de derniere ligne
     
    N <- length(aa) # nombre de segments
    S <- list()
    p <- 1
    q <- 1
    for (i in aa){ 
      S[[q]] <- assign(paste("S",q,sep=""),cbind(kk[p:i-1,1]))
      q <- q+1
      p <- i+2
    }

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. text mining : Développement d'un outil d'analyse de CV
    Par ridan dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 16/09/2010, 16h54
  2. Text Mining / Racinisation
    Par domino313131 dans le forum Général Java
    Réponses: 1
    Dernier message: 23/04/2010, 14h36
  3. Réponses: 5
    Dernier message: 07/05/2009, 10h54
  4. Text-Mining et Delphi ?
    Par Bruno13 dans le forum Composants VCL
    Réponses: 0
    Dernier message: 30/11/2008, 05h43
  5. Text mining et full text search
    Par icebe dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 09/07/2007, 13h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo