-
Analyse textuelle sous R
Bonjour,
Je travaille en ce moment pour une entreprise qui souhaite réaliser de l'analyse textuelle sous R, j'ai commencé à travailler avec le package tm et effectué de la lémmatisation (racine des mots uniquement d'un corpus), des nuages de mots, un tableau avec le nombre d’occurrences de chaque mot dans un corpus... Mais je n'ai pas connaissance des autres analyses. Si quelqu'un connaît bien ce package de R je serais très intéressé de pouvoir faire encore plus d'analyses.
Merci de votre aide.
Jérémie
-
Bonjour,
Tu peux faire d'autre type d'analyse textuelle, mais R n'est pas toujours l'outil le plus adapté pour l'analyse textuelle. À mes yeux, tu poses deux questions. La première concernant le package tm. Pour cela tu as la documentation. La seconde est de façon générale. Que peut-on faire ou ne pas faire avec R ? Selon la langue avec laquelle tu travailles la réponse ne sera pas la même. Si tu travailles sur de l'anglais, tu auras beaucoup plus de possibilités que si tu travailles avec du français. Concernant les statistiques et les textes, tu peux faire des nuages de mots, mais aussi du clustering sur les textes pour déterminer les thèmes ou plus simplement si tu as des spams. Tu peux faire aussi du résumer automatiques. Mais, ces dernières méthodes peuvent faire appelle à des techniques du discourt ou plus généralement du Traiment Automatiques du langage qui dépasse le cadre des statistiques.
Je réponds de façon générale à ta question et cela ne répond peut-être pas bien à ta demande alors n'hésite pas à préciser ta question.
Cordialement.
-
Bonjour,
Pour être plus précis, tout mon travail statistique se déroule sur R. Et il m'est demandé maintenant de m'entraîner sur de l'analyse textuelle toujours sur R. Donc je voulais savoir si quelqu'un avait déjà utilisé le package tm pour savoir comment produire tout ce dont il est capable comme analyse statistique car les tutoriels en anglais ne sont pas toujours facile à comprendre. J'ai déjà effectué de la lemmatisation (garder la racine des mots), des nuages de mots mais j'ai vu d'autres possibilités, notamment choisir un mot et voir avec quels autres mots il est corrélé, comparaison du nombre d’occurrences des mots entre les textes, ...
Tout mon travail de statistique doit être automatisé et dans plusieurs langues, c'est pour cela que je travaille avec R.
Jérémie
-
Jérémie,
Wordnet est présent sur R avec tu peux faire de l'analyse grammaticale.
RTextureMetrics, je ne connais pas.
RTextTools peut aussi permettre de la clusterisation de texte avec R.
Tu as un module Rcmdr pour tm.
Concernant tm je pense que tu as énuméré ses possibilités.
Tu as aussi rtemis et txm que je découvre avec toi.
Cordialement.
-
Bonjour,
Oui j'ai déjà aperçu ses noms. J'y jetterai un œil si jamais les analyses avec tm me paraissent insuffisantes.
Jérémie