projet scanner html

Version imprimable

07/05/2016, 17h33
Nyradr

projet scanner html

Bonjour,

Récemment j'ai eu à sortir des informations d'un site web (entre autres simuler un login et récupérer des informations depuis la zone membre).
J'ai utiliser HtmlUnit et du XPath.
Toutefois j'ai eu à recopier plusieurs fois un code similaire et certaines informations n'étaient pas récolter car le site changeait certains nom de class (HTML) lors de la navigation.

J'ai écrit une petite bibliothèque java pour pouvoir récupérer de manière générique des informations depuis une page web.
Il suffit juste de décrire le XPath des informations à récolter dans un fichier XML et d'appeler 3 fonctions.
Il est bien sur possible de décrire plusieurs pages dans un document XML.
Pour éviter de recopier plusieurs fois un XPath similaire (pas ex : dans le cas des noms de class changeant) il est possible de passer des arguments aux XPath.

Je poste ici pour avoir vos avis et vos remarques sur le projet.
Je pense ajouter de quoi auto-remplir et envoyer les formulaires dans une prochaine version.

Pour tester la bibliothèque j'ai placer un main dans Scheme.java montrant l'utilisation du XML et une utilisation concrète dans Harvester.java
08/05/2016, 06h10
joel.drigo
Salut,

Je n'ai pas regardé ton projet. C'était juste pour dire que Selenium fait ça aussi, avec du xpath, entre autres, et pour différents types de navigateur, y compris htmlunit.

Pour les pages non dynamiques on peut utiliser aussi JSoup, qui fait ça aussi, sauf qu'à la place de xpath, on a une syntaxe "à la JQuery".

Exemple :
Code:

1 2 3 Document doc = Jsoup.connect("http://example.com/").get(); Elements links = doc.select("a[href]"); Elements pngs = doc.select("img[src$=.png]");
08/05/2016, 12h07
Nyradr
j'avais déja regarder selenium, jsoup et htmlcleaner avant de me fixer sur htmlunit.
Si je ne me trompe selenium est juste un pilote se branchant sur un navigateur tournant sur le client. Posant de fait des problèmes de portabilité (obligation d'avoir un plugin firefox, installation de chrome, ...).

Jsoup et htmlcleaner supportent bien le xpath et récupère une page depuis le web (même en https) mais n'ont aucune gestion des cookies rendant impossible de se connecter à un service.

HtmlUnit offre un vrai navigateur standalone avec exécution de js, cookies et une interface simple d'utilisation.

Le type d’éléments que j'ai eu à récupérer avaient la forme suivante :
Code:

1 2 3 4 <div class='a'>...</div> <div class='a b'>...</div> <div class='c ...'>...</div>
Même avec Jsoup j'aurais du écrire 2 requêtes, ce à adapter pour toutes mes pages.
08/05/2016, 15h20
joel.drigo

Selenium fonctionne très bien avec htmlunit (org.openqa.selenium.htmlunit.HtmlUnitDriver). Je ne vois pas trop l'intérêt pour les WebServices. Je ne suis pas spécialiste du domaine, mais des Web Services qui servent du HTML, ça existe ?
08/05/2016, 17h24
Nyradr

Il y a plein de webservices avec du html : ceux qui ne fournissent rien pour les devs et seulement une page web à l'utilisateur^^.
Sinon la plupart fournissent du json ou du XML.
Je ne voit pas trop l’utilité d'utiliser selenium, qui au final va juste sur-couché htmlunit sans vraiment m'apporter un plus intéressant.

Le but est juste de simplifier la sortie d'infos d'un site lambda sans rien avoir à écrire de spécifique pour le site (à part le XML).
J’essaye juste de planquer au max le "comment" les données ont été récupérer et les aléas du site.
08/05/2016, 17h37
joel.drigo

Si c'est juste pour récupérer des données du site, effectivement, Selenium est un peu surdimensionné.
08/05/2016, 17h39
joel.drigo

J'ai regardé ton code et je ne vois rien de particulier à dire, si ce n'est que j'aurais utilisé StAX plutôt que DOM pour charger le "Scheme", et que j'aurais probablement mis un mode "direct" (pour extraire sans être obligé de faire un XML).
08/05/2016, 18h07
Nyradr

Pour le parsing xml : normalement les fichiers xml ne sont pas très gros. Je changerais peut être plus tard.
Un mode "direct" peut effectivement être intéressant.

Pour l'instant je vais implémenter de quoi remplir et soumettre des form ainsi que de faire une doc utlisateur
08/05/2016, 20h14
joel.drigo

Autre suggestion : publier ton API comme ressource Developpez.
08/05/2016, 21h24
Nyradr

Pourquoi pas toutefois dans quelle catégorie la ranger : XML ou net & réseaux?
08/05/2016, 21h29
joel.drigo

Bonne question ;)
Peut-être dans les deux et peut-être aussi dans divers.