IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

traitement de texte


Sujet :

R

  1. #1
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Points : 97
    Points
    97
    Par défaut traitement de texte
    Bonjour,
    Je voudrais extraire à partir d'un fichier texte les mots les plus frequents.
    Je sais qu'avec cette commande
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    scan("file.txt", character(0))
    je peux avoir la liste des mots du fichier.
    Ma question est de savoir s'il existe peut etre une fonction qui donnerait les occurences de chaque mot.

    Merci

    P-J:fichier teste
    Fichiers attachés Fichiers attachés

  2. #2
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour,

    En partant de votre code, ceci est un début :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    L<-scan("fic.txt",character(0))
    L
       [1] "Let's"            "begin"            "our"             
       [4] "discussion"       "of"               "minimum"         
       [7] "edit"             "distance"         "by"              
      [10] "defining"         "minimum"          "edit"            
      [13] "distance."        "Minimum"          "at"              
      [16] "a"                "distance"         "is"              
      [19] "a"                "way"              "of"              
      [22] "solving"          "the"              "problem"         
      [25] "of"               "string"           "similarity,"     
      [28] "how"              "similar"          "are"
     
      ("...")
     
    table(L)
                   a                A               A,             able 
                  28                4                1                1 
               about         accuracy            added          advisor 
                   1                1                1                2 
              afford           again,        algorithm            align 
                   1                1                1                2 
              align.        alignment       alignment.           aligns 
                   1                4                1                1 
                 all              All            along         Alright. 
                   4                2                1                1 
                also           amount               an              and 
                   1                1                8               27 
     
    		("...")
    Mais il y a très probablement moyen de faire mieux que l'utilisation de "scan" en ce qui concerne la récupération d'une liste des mots du fichier car ici on va tomber sur des éléments avec des apostrophes, des virgules, des parenthèses, etc...

    Avez-vous regardé du côté des fonctions spécifiques au "text-mining" comme vous l'a suggéré vchouraki ici?
    Je n'ai personnellement pas le temps d'y jeter un oeil pour le moment mais je pense que vous devriez y trouver votre bonheur.

    Bonne continuation


    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  3. #3
    Inactif
    Profil pro
    Inscrit en
    Avril 2012
    Messages
    96
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2012
    Messages : 96
    Points : 97
    Points
    97
    Par défaut
    Merci AD, effectivement le lien contient beaucoup de packages qui devraient faire l'affaire, en plus de ça j'ai trouvé un package (ttda) qui n'est pas mal non plus.
    Merci.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 17
    Dernier message: 16/03/2006, 16h44
  2. Comment intégrer des fonctions de traitement de texte?
    Par smotte76 dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 3
    Dernier message: 02/03/2006, 15h46
  3. [Photoshop]Traitement de texte sur un .jpg
    Par ghyosmik dans le forum Imagerie
    Réponses: 3
    Dernier message: 25/10/2005, 16h48
  4. Réponses: 8
    Dernier message: 29/11/2004, 16h28
  5. Reinstaller le traitement de texte de OppenOffice
    Par pierrepierre dans le forum Applications et environnements graphiques
    Réponses: 5
    Dernier message: 06/05/2004, 12h34

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo