Bonjour à tous,
Je cherche un outil automatique un peut comme les aspirateurs web (url en entrée, pages HTML et sources en sortie) avec la particularité d'extraire que le texte des pages HTML (publicités, styles, images et balise HTML exclues). L'idéal, ça serait une sortie classique .txt.
Le but est de créer un corpus spécifique de son choix, et l'exploiter par la suite dans une moulinette d'extraction de l'information du web sémantique.
Connaissez-vous des outils pouvant répondre à mon besoin de création de corpus ?
Merci d'avance
Partager