Bonjour à tous, depuis quelque jours je m'intéresse beaucoup au crawl de site web à savoir parcourir les pages web et en extraire les informations voulu j'aimerai beaucoup prendre en main ce concept et réussir à faire des choses par moi même.
Je suis tombé sur ce projet open source qui est superbe puisqu'il fonctionne très bien et facile à prendre en main:
http://phpcrawl.cuab.de
Franchement rien à dire le code est bien structuré bien commenté mais le problème c'est que c'est bien trop haut niveau pour moi on a 15 à 20 fichier de 700 lignes je ne sais même pas par où commencer.
Donc ma question auriez vous des projet, des cours, des liens ou une simple explication qui permettent de mieux prendre en main ce concept ? Quoi qu'il en soit je veux juste réussir à le faire par moi même. Attention même si je ne comprend pas tout le projet je ne pars pas de 0 en PHP (html js etc) j'ai déjà créée des sites parfaitement fonctionnels dans le cadre de projet scolaire.
J'aimerai déjà au moins extraire une page web en php car après je me doute qu'il suffit juste de la parcourir pour savoir ce qu'on veut par exemple si on veut les liens on cherche tout ce qu'il y a dans "href" avec une boucle pour parcourir tout les caractères de la page.
Bien merci à celui qui me répondra.
Partager