-
Java Crawling / Scraping
Hello,
je réfléchis à une app Java / Spring qui permettrait de rechercher des offres d'emplois par mots-clés.
Pour ça j'ai vu qu'il existait, entre autres, Apache Nutch, mais Nutch a l'air de fonctionner plus par ligne de commande que par code intégré dans une app (même si c'est possible).
Si vous avez un crawler / scraper à me conseiller et qui collerait bien avec ce que je recherche, je suis preneur.
Thanks !
-
Hello,
je crains fort que ce que tu nous demandes soit en contradiction avec les termes d'utilisation des différents services que tu chercherais à indexer. En d'autres termes, assez souvent personne n'aime bien trop être la cible de scraping. (Il y a bien le contenu ouvert, mais c'est une autre histoire).
Tu nous cites Apache Nutch, tentative de moteur de recherche libre, oui mais :
- Un moteur de recherche ne s'intéresse pas spécialement aux offres d'emplois. Il indexe tout et ne fait concurrence à rien (enfin, il fait concurrence aux autres moteurs de recherche).
- Un moteur de recherche n'utilise pas de compte utilisateur pour indexer les sites. (Peut-être que toi non plus, auquel cas, pas dit que les conditions d'utilisation te concernent. S'adresser à un avocat.)
Ça m'a pas l'air bien dans les clous tout ça.
Soyons réalistes : si les sites que tu veux indexer voulaient que tu les indexes, ils t'aideraient à le faire avec une API. Tu n'aurais aucun besoin de faire du scraping.
Et peut-être qu'ils offrent bel et bien des APIs et donc que tu n'as pas besoin de ce que tu viens de demander, il faut voir.
Si tu veux faire des trucs qu'ils n'ont pas envie que tu fasses, t'as pas forcément le droit.
Après, ça peut peut-être se négocier, à voir avec eux et un avocat.