Fouille de textes (text mining) de Wikipédia avec R

**lbocken** · 14/03/2014, 03h54

Bonjour,

Quelqu'un aurait-il des bonnes pratiques à recommander dans l'application de techniques de fouille de textes (text mining) à Wikipédia avec R?

Par exemple, pour commencer, j'hésite entre passer par l'API de Wikipédia ou traiter le format XML de Wikipédia.

Merci d'avance pour votre aide !

Ludovic

**dev_ggy** · 18/03/2014, 09h51

Bonjour,

Deux sujets sont ouverts. Le premier, "parser" Wikipedia que l'on peut appeler "crawling". Le second, concerne le sujet du texte mining.
Dans ta description, on parle plus de crawling que de fouille de texte. Je répondrais donc sur la question de parser le web. Mon expérience en développement me ferait aller plutôt vers une solution en python avec l'outil Scrapy. L’intérêt c'est que c'est un framework dédié à ce type d'opérations. C'est bien, si tu as beaucoup de développements à faire et beaucoup d'informations à crawler. Si tu veux garder les deux solutions que tu as proposées, je ne saurais pas trop t'aider au sujet de l'api Wikipedia, car je ne la connais pas. Mais, par contre, je peux te dire que XPATH, l'outil pour parser le XML, est facilement configurable. Des outils comme Firefox ou Chrome te donnent le chemin du dom dont tu as besoin. Les parties que tu veux isoler sont donc facilement configurables.

Cordialement.

Fouille de textes (text mining) de Wikipédia avec R

R

Discussions similaires

Partager

Partager