IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

faire des n grammes


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre actif
    Profil pro
    Inscrit en
    Mars 2013
    Messages
    35
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2013
    Messages : 35
    Par défaut faire des n grammes
    Bonjour, ça fait 4 jours que je n'arrive pas à trouver comment faire des n grammes dans R, si vous pouviez m'aider.

    J'ai un corpus qui se présente comme suit :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    > inspect(moncorpus)
    $ '1'
    dfervdvcrvdfvdvdfverf
    $'2'
    cezcdecedvervrfeverfv
    Je voudrais utiliser un TermDocumentMatrix afin d'avoir en ligne des 2 grammes comme "df" , "fe", "er", etc.. et en colonne, mes deux documents, Doc 1 et Doc 2.

    Or le souci, c'est que quand on a des lettres collées, la commande DocumentTermMatrix ne fonctionne pas en essayant ces commandes :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
      library("RWeka")
      library("tm")
     
      BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
      tdm <- TermDocumentMatrix(moncorpus, control = list(tokenize = BigramTokenizer))
    Comment faire ?

    Merci de votre aide.

  2. #2
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    As-tu regardé en direction des expressions régulières pour extraire les termes que tu souhaites ?

  3. #3
    Membre actif
    Profil pro
    Inscrit en
    Mars 2013
    Messages
    35
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2013
    Messages : 35
    Par défaut
    J'ai essayé avec strsplit mais sans succès par exemple j'ai essayé ça :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    splitter<- function(x){
    strsplit(x,"")
    }
    moncorpus<- tm_map(moncorpus,splitter)
    ça me donne un truc comme ça :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    inspect(moncorpus)
    $ '1'
    $ '1' [[1]]
    [1]  d f e r v d v c r v d  f v d  v d  f v e r f

    Et puis après en utilisant le DocumentTermMatrix ça marche pas.

    En fait avec des mots ça marche car entre chaque mot il y a un espace et donc en utilisant le NGramTokenizer ça fonctionne, on peut avoir en utilisant le DocumentTermMatrix par la suite, en ligne deux mots si on veut 2 grammes et en colonnes mes deux Docs.
    Or là j'ai voulu faire un peu pareils et mettre des espaces entre chaque lettre et puis pouvoir utiliser le NGramtokenizer en prenant 2 grammes, donc par exemple "df", "fe" etc... mais ça fonctionne pas.

  4. #4
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    De façon plus général quel est la structure de ta phrase ou de tes documents pour en extraire l'information que tu souhaite. Tu devras probablement refaire un programme de tokenisation. Par exemple, connais tu tout ton vocabulaire, car dans se cas tu peux faire une fonction qui d'extrait les termes un à un.

    Cordialement.

  5. #5
    Inactif  
    Profil pro
    " "
    Inscrit en
    Janvier 2008
    Messages
    330
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : " "

    Informations forums :
    Inscription : Janvier 2008
    Messages : 330
    Par défaut
    Bonjour,

    Tu pourrais regarder la fonction
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    textmatrix( mydir, stemming=FALSE, language="english",
       minWordLength=2, maxWordLength=FALSE, minDocFreq=1, 
       maxDocFreq=FALSE, minGlobFreq=FALSE, maxGlobFreq=FALSE, 
       stopwords=NULL, vocabulary=NULL, phrases=NULL, 
       removeXML=FALSE, removeNumbers=FALSE)
    du package lsa, en parametrant sur les arguments
    minWordLength, maxWordLength
    BC

Discussions similaires

  1. Comment faire des etats pour une application web ?
    Par ovh dans le forum Autres outils décisionnels
    Réponses: 6
    Dernier message: 06/07/2021, 03h25
  2. Faire des icônes
    Par Gnux dans le forum Gnome
    Réponses: 6
    Dernier message: 01/12/2003, 15h51
  3. faire des graphiques avec Perl
    Par And_the_problem_is dans le forum Modules
    Réponses: 2
    Dernier message: 16/07/2003, 16h08
  4. [VB6][impression]Comment faire des effets sur les polices ?
    Par le.dod dans le forum VB 6 et antérieur
    Réponses: 11
    Dernier message: 08/11/2002, 10h31
  5. Réponses: 8
    Dernier message: 18/09/2002, 03h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo