IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Fouille de textes (text mining) de Wikipédia avec R


Sujet :

R

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2013
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mars 2013
    Messages : 2
    Points : 3
    Points
    3
    Par défaut Fouille de textes (text mining) de Wikipédia avec R
    Bonjour,

    Quelqu'un aurait-il des bonnes pratiques à recommander dans l'application de techniques de fouille de textes (text mining) à Wikipédia avec R?

    Par exemple, pour commencer, j'hésite entre passer par l'API de Wikipédia ou traiter le format XML de Wikipédia.

    Merci d'avance pour votre aide !

    Ludovic

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour,

    Deux sujets sont ouverts. Le premier, "parser" Wikipedia que l'on peut appeler "crawling". Le second, concerne le sujet du texte mining.
    Dans ta description, on parle plus de crawling que de fouille de texte. Je répondrais donc sur la question de parser le web. Mon expérience en développement me ferait aller plutôt vers une solution en python avec l'outil Scrapy. L’intérêt c'est que c'est un framework dédié à ce type d'opérations. C'est bien, si tu as beaucoup de développements à faire et beaucoup d'informations à crawler. Si tu veux garder les deux solutions que tu as proposées, je ne saurais pas trop t'aider au sujet de l'api Wikipedia, car je ne la connais pas. Mais, par contre, je peux te dire que XPATH, l'outil pour parser le XML, est facilement configurable. Des outils comme Firefox ou Chrome te donnent le chemin du dom dont tu as besoin. Les parties que tu veux isoler sont donc facilement configurables.

    Cordialement.

Discussions similaires

  1. Réponses: 2
    Dernier message: 27/05/2007, 02h38
  2. Tableau ou list avec images, texte, texte cliquable
    Par hinsano dans le forum Windows Mobile
    Réponses: 1
    Dernier message: 26/01/2007, 15h53
  3. Réponses: 5
    Dernier message: 24/08/2006, 16h17
  4. Insertion d'1 petit texte ciblé sur page .php avec echo
    Par sabine2000 dans le forum Langage
    Réponses: 1
    Dernier message: 21/10/2005, 11h31
  5. Placer du texte dans le presse papier avec DOM
    Par Desraux dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 19/01/2005, 13h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo