IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Package tm "classification hiérarchique"


Sujet :

R

  1. #1
    Membre à l'essai
    Homme Profil pro
    IUT de Metz
    Inscrit en
    Juin 2014
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : IUT de Metz
    Secteur : Distribution

    Informations forums :
    Inscription : Juin 2014
    Messages : 22
    Points : 15
    Points
    15
    Par défaut Package tm "classification hiérarchique"
    Bonjour,

    Je voulais savoir s'il était possible d'afficher un arbre hiérarchique des termes les plus fréquents pour avoir une meilleure visibilité qu'avec l'ensemble des termes.
    Ainsi pour pouvoir faire des classes entre les termes et les associer aux documents ou ils apparaissent plus souvent.

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour,

    Concernant la classification hiérarchique de terme dans un texte, tu peux bien sûr le faire, mais je ne suis pas sûr que les résultats soient très pertinents. Je te conseille d'aller voire du côté de la loi de Zipf pour voire comment se répartie les mots en fonction de leurs fréquences.

    Par contre tu peux faire une représentation AFC des termes par fréquence et documents puis les classifier. Ainsi tu auras une classification des articles et non des termes.

    Cordialement.

  3. #3
    Membre à l'essai
    Homme Profil pro
    IUT de Metz
    Inscrit en
    Juin 2014
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : IUT de Metz
    Secteur : Distribution

    Informations forums :
    Inscription : Juin 2014
    Messages : 22
    Points : 15
    Points
    15
    Par défaut
    Bonjour,

    Oui je me demandais si une classification des termes serait judicieuse et en effet les résultats ne sont pas exploitables.
    J'avais effectué également une AFC et comme tu le précises on voit les rapprochements/différences entre les documents.

    Mais y a-t-il un moyen de voir par exemple dans un tableau les termes les plus fréquents pour chaque document ?
    Exemple : le terme "popul" (après lemmatisation) est largement plus présent dans un document mais je l'ai vu par hasard dans le tableau complet de TDM (TermDocumentMatrix)

    Cordialement

Discussions similaires

  1. [Package listings] Commentaires XML et quote
    Par arnobidul dans le forum Mise en forme
    Réponses: 0
    Dernier message: 27/07/2007, 11h54
  2. Quote et double quote
    Par aktos dans le forum Langage
    Réponses: 8
    Dernier message: 05/01/2007, 19h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo