-
Extraction de corpus
Bonjour à tous,
Je cherche un outil automatique un peut comme les aspirateurs web (url en entrée, pages HTML et sources en sortie) avec la particularité d'extraire que le texte des pages HTML (publicités, styles, images et balise HTML exclues). L'idéal, ça serait une sortie classique .txt.
Le but est de créer un corpus spécifique de son choix, et l'exploiter par la suite dans une moulinette d'extraction de l'information du web sémantique.
Connaissez-vous des outils pouvant répondre à mon besoin de création de corpus ?
Merci d'avance
-
Jette un oeil à l'API Alchemy : http://www.alchemyapi.com/api/text/htmlc.html
Il y a un appel pour nettoyer du HTML. L'API est gratuite jusqu'à 1000 appels par jour.
Sinon des choses comme Readability peuvent t'aider peut-être.
-
Bonjour,
Très intéressante l'API, elle permet exactement ce que je désire. Certes l'automatisation des appels ne m'est pas sorcier, mais il va falloir au préalable identifier manuellement les URLs dont on désire extraire le texte. Pour mon cas il s'agit d'aux minimum 20 000 pages :? Bonsoir la galère.
Cela me serait plus utile, s'il y a moyen de parcourir automatiquement les pages HTLM et en extraire le texte, en précisant juste l'adresse racine du site en question. (Principe d'un aspirateur Web).
-
Il faut donc que tu combines les appels à l'API avec un crawler en amont, comme Nutch ou Heritrix. Un peu de travail d'intégration en perspective...
-
Merci Men, tu as éclairé mon chemin :).