Du text mining

**MMDM12** · 02/05/2012, 10h59

Bonjour,
J'ai un fichier de sous-titrage de vidéo et mon objectif est de résumer la vidéo.
Pour cela, mon idée est, dans un premier temps, de supprimer les parties ne contenant pas les mots-clés de la requête de l'utilisateur.

Ci-joint un fichier .srt déjà divisé en 125 parties. J'ai envie de créer un vecteur ou une liste dont chaque élément est une partie de ce fichier.
Une fois que j'aurais etabli la liste des mots-clés, j'ai envie de retourner les parties ne contenant que ces mots-clés.

Merci.

**MMDM12** · 02/05/2012, 15h00

Bonjour,
Je reformule ma question.
Supposons que j'ai ce fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
 
1
00:00:00,000 --> 00:00:04,034
Now we're gonna talk about text
processing. The most basic and fundamental
 
2
00:00:04,034 --> 00:00:09,016
tool we have for text processing is the
regular expression. And regular expression
 
3
00:00:09,016 --> 00:00:13,068
is a formal language for specifying text
strings. So let's suppose that we're
 
4
00:00:13,068 --> 00:00:18,069
looking for woodchucks in a text document,
Woodchucks can be expressed in a number of
 
5
00:00:18,069 --> 00:00:23,014
ways. We could have a singular woodchuck,
we could have the plural S at the end. We
 
6
00:00:23,014 --> 00:00:26,093
could have a capital letter at the
beginning, or a lower case, and any

et je cherche à le découper et stocker dans un vecteur de la sorte :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 S1<-   :00:00:00,000 --> 00:00:04,034
Now we're gonna talk about text
processing. The most basic and fundamental

c'est-à-dire la 1ère partie,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 S2<-   00:00:04,034 --> 00:00:09,016
tool we have for text processing is the
regular expression. And regular expression

la 2ème partie, etc...

Merci.

**MMDM12** · 04/05/2012, 15h53

Bonjour,
finalement j'ai fait ainsi:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 
#library(ISwR)
library(stringr)
kk <- read.delim("D:/script_R/srt_files/srtfile.srt",sep="\t", as.is=TRUE)
names(kk)
class(kk)
kk <- as.matrix(kk)
num <-ifelse(str_detect(kk[,1], "^[1-9]")==TRUE,1,0)
num <- matrix(num,ncol=1)
aa <- which(num>0) # les numeros des lignes de coupures
aa <- c(aa,length(kk[,1])) # on ajoute le num de derniere ligne
 
N <- length(aa) # nombre de segments
S <- list()
p <- 1
q <- 1
for (i in aa){ 
  S[[q]] <- assign(paste("S",q,sep=""),cbind(kk[p:i-1,1]))
  q <- q+1
  p <- i+2
}

Du text mining

R

Discussions similaires

Partager

Partager