Extraction de corpus

Version imprimable

20/05/2013, 14h54
omar_elid

Extraction de corpus

Bonjour à tous,

Je cherche un outil automatique un peut comme les aspirateurs web (url en entrée, pages HTML et sources en sortie) avec la particularité d'extraire que le texte des pages HTML (publicités, styles, images et balise HTML exclues). L'idéal, ça serait une sortie classique .txt.

Le but est de créer un corpus spécifique de son choix, et l'exploiter par la suite dans une moulinette d'extraction de l'information du web sémantique.

Connaissez-vous des outils pouvant répondre à mon besoin de création de corpus ?

Merci d'avance
20/05/2013, 15h42
Sapience

Jette un oeil à l'API Alchemy : http://www.alchemyapi.com/api/text/htmlc.html
Il y a un appel pour nettoyer du HTML. L'API est gratuite jusqu'à 1000 appels par jour.
Sinon des choses comme Readability peuvent t'aider peut-être.
22/05/2013, 09h56
omar_elid

Bonjour,

Très intéressante l'API, elle permet exactement ce que je désire. Certes l'automatisation des appels ne m'est pas sorcier, mais il va falloir au préalable identifier manuellement les URLs dont on désire extraire le texte. Pour mon cas il s'agit d'aux minimum 20 000 pages :? Bonsoir la galère.

Cela me serait plus utile, s'il y a moyen de parcourir automatiquement les pages HTLM et en extraire le texte, en précisant juste l'adresse racine du site en question. (Principe d'un aspirateur Web).
23/05/2013, 08h34
Sapience

Il faut donc que tu combines les appels à l'API avec un crawler en amont, comme Nutch ou Heritrix. Un peu de travail d'intégration en perspective...
24/05/2013, 10h38
omar_elid

Merci Men, tu as éclairé mon chemin :).