Bonjour,
Récemment j'ai eu à sortir des informations d'un site web (entre autres simuler un login et récupérer des informations depuis la zone membre).
J'ai utiliser HtmlUnit et du XPath.
Toutefois j'ai eu à recopier plusieurs fois un code similaire et certaines informations n'étaient pas récolter car le site changeait certains nom de class (HTML) lors de la navigation.
J'ai écrit une petite bibliothèque java pour pouvoir récupérer de manière générique des informations depuis une page web.
Il suffit juste de décrire le XPath des informations à récolter dans un fichier XML et d'appeler 3 fonctions.
Il est bien sur possible de décrire plusieurs pages dans un document XML.
Pour éviter de recopier plusieurs fois un XPath similaire (pas ex : dans le cas des noms de class changeant) il est possible de passer des arguments aux XPath.
Je poste ici pour avoir vos avis et vos remarques sur le projet.
Je pense ajouter de quoi auto-remplir et envoyer les formulaires dans une prochaine version.
Pour tester la bibliothèque j'ai placer un main dans Scheme.java montrant l'utilisation du XML et une utilisation concrète dans Harvester.java