Bonjour, ça fait 4 jours que je n'arrive pas à trouver comment faire des n grammes dans R, si vous pouviez m'aider.

J'ai un corpus qui se présente comme suit :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
> inspect(moncorpus)
$ '1'
dfervdvcrvdfvdvdfverf
$'2'
cezcdecedvervrfeverfv
Je voudrais utiliser un TermDocumentMatrix afin d'avoir en ligne des 2 grammes comme "df" , "fe", "er", etc.. et en colonne, mes deux documents, Doc 1 et Doc 2.

Or le souci, c'est que quand on a des lettres collées, la commande DocumentTermMatrix ne fonctionne pas en essayant ces commandes :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
  library("RWeka")
  library("tm")
 
  BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
  tdm <- TermDocumentMatrix(moncorpus, control = list(tokenize = BigramTokenizer))
Comment faire ?

Merci de votre aide.