Extraction de corpus

**omar_elid** · 20/05/2013, 14h54

Bonjour à tous,

Je cherche un outil automatique un peut comme les aspirateurs web (url en entrée, pages HTML et sources en sortie) avec la particularité d'extraire que le texte des pages HTML (publicités, styles, images et balise HTML exclues). L'idéal, ça serait une sortie classique .txt.

Le but est de créer un corpus spécifique de son choix, et l'exploiter par la suite dans une moulinette d'extraction de l'information du web sémantique.

Connaissez-vous des outils pouvant répondre à mon besoin de création de corpus ?

Merci d'avance

**Sapience** · 20/05/2013, 15h42

Jette un oeil à l'API Alchemy : http://www.alchemyapi.com/api/text/htmlc.html
Il y a un appel pour nettoyer du HTML. L'API est gratuite jusqu'à 1000 appels par jour.
Sinon des choses comme Readability peuvent t'aider peut-être.

**omar_elid** · 22/05/2013, 09h56

Bonjour,

Très intéressante l'API, elle permet exactement ce que je désire. Certes l'automatisation des appels ne m'est pas sorcier, mais il va falloir au préalable identifier manuellement les URLs dont on désire extraire le texte. Pour mon cas il s'agit d'aux minimum 20 000 pages

Bonsoir la galère.

Cela me serait plus utile, s'il y a moyen de parcourir automatiquement les pages HTLM et en extraire le texte, en précisant juste l'adresse racine du site en question. (Principe d'un aspirateur Web).