Exécution d'un crawler dans un programme Python

**claudesim2000** · 28/11/2018, 21h38

Bonjour,

Je suis nouveau dans le développement Python pour faire du moissonnage de site web.

J'ai besoin de savoir comment exécuter un scrapeur Scrapy dans un programme Python.
J'explique ...

Mon programme est bâtis en 3 fichiers;
1 - Programme principal
2 - Un scrapeur pour récupération des liens sur un page web
3 - Un scrapeur pour la récupération des données qui me préoccupe

Mon programme principale boucle sur un résultat dans une base de données.
Chaque enregistrement retourné comprend le lien internet du site a moissonner, le nom du scraper à utiliser ainsi que certain paramètres a passer a mon scraper.

Selon ce que j'ai vu sur le Web je dois utiliser Twisted, mais il y a un problème avec ça, si j'incrémente un compteur dans la boucle, celui-ci est toujours à 0???

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
Début boucle sur les enregistrements
      x +=1
      yield runner.crawl(monscrapeur,par1=x,par2,par3)
      print("x : " + x)
Fin boucle

Mon résultat après 2 boucle

X = 0
X = 0

J'ai l'impression que c'est Twisted qui est en cause.

Avez-vous une solution à ce problème?
Comment exécuter un scraper dans un script python?

Merci de votre aide!

**claudesim2000** · 05/12/2018, 15h32

Bonjour,

J'ai effectué des recherches sur le Web et mon problème provient du reactor.

Je cherche donc une autre méthode pour exécuter mon crawl dans un boucle.

En passant, le nom de mon crawl dans la boucle est dynamique. Il change selon les données que j'ai a moissonner.
C'est la mon défit exécuter dans une boucle FOR un appel de crawl dynamique.

J'ai besoin lors de l'exécution de mon crawl que le code python soit pause jusqu'à ce que le crawl est terminé son exécution, car le crawl en cours d'exécution prépare des données dans la DB pour la prochaine exécution crawl qui sera exécuté dans la même boucle FOR.

La boucle FOR (sur un cursor) contient les liens WEB et les nom du crawl a exécuter dans la boucle FOR.

Je dois trouver une solution à mon problème.

Merci de votre aide.

Exécution d'un crawler dans un programme Python

Python

Vue hybride

Discussions similaires

Partager

Partager