Bonjour, ça fait 4 jours que je n'arrive pas à trouver comment faire des n grammes dans R, si vous pouviez m'aider.
J'ai un corpus qui se présente comme suit :
Je voudrais utiliser un TermDocumentMatrix afin d'avoir en ligne des 2 grammes comme "df" , "fe", "er", etc.. et en colonne, mes deux documents, Doc 1 et Doc 2.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 > inspect(moncorpus) $ '1' dfervdvcrvdfvdvdfverf $'2' cezcdecedvervrfeverfv
Or le souci, c'est que quand on a des lettres collées, la commande DocumentTermMatrix ne fonctionne pas en essayant ces commandes :
Comment faire ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 library("RWeka") library("tm") BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm <- TermDocumentMatrix(moncorpus, control = list(tokenize = BigramTokenizer))
Merci de votre aide.
Partager