Bonjour,
Je suis nouveau dans le développement Python pour faire du moissonnage de site web.
J'ai besoin de savoir comment exécuter un scrapeur Scrapy dans un programme Python.
J'explique ...
Mon programme est bâtis en 3 fichiers;
1 - Programme principal
2 - Un scrapeur pour récupération des liens sur un page web
3 - Un scrapeur pour la récupération des données qui me préoccupe
Mon programme principale boucle sur un résultat dans une base de données.
Chaque enregistrement retourné comprend le lien internet du site a moissonner, le nom du scraper à utiliser ainsi que certain paramètres a passer a mon scraper.
Selon ce que j'ai vu sur le Web je dois utiliser Twisted, mais il y a un problème avec ça, si j'incrémente un compteur dans la boucle, celui-ci est toujours à 0???
Mon résultat après 2 boucle
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 Début boucle sur les enregistrements x +=1 yield runner.crawl(monscrapeur,par1=x,par2,par3) print("x : " + x) Fin boucle
J'ai l'impression que c'est Twisted qui est en cause.X = 0 X = 0
Avez-vous une solution à ce problème?
Comment exécuter un scraper dans un script python?
Merci de votre aide!
Partager