Bonjour,
J'aimerais savoir comment copier uniquement le texte d'une page web et enregistrer cela dans un fichier texte ?
Merci.
Version imprimable
Bonjour,
J'aimerais savoir comment copier uniquement le texte d'une page web et enregistrer cela dans un fichier texte ?
Merci.
Salut,
Tu dois combiner 3 fonctionnalités :
- Une qui récupère le flux html depuis l'URL de la page WEB dans une chaîne de caractères ;
- Une qui extrait de ce html le texte ;
- Enregistrer le texte dans un fichier
Pour la première, tu peux utiliser la classe URLConnection ou l'API Apache HttpClient.
Pour la deuxième, on pourrait procéder par analyse purement texte, en supprimant le texte entre < et >, par parcours, ou par regex. Ca peut s'avérer plus ou moins complexe selon les cas. Habituellement, je procède plutôt personnellement en parsant le html avec un parser comme jsoup ou jericho par exemples. Un exemple de code java pour l'API Jericho pour extraire le texte d'un flux html : http://jericho.htmlparser.net/sample...tractText.java.