scrapy et base de données

**d4v1d6942** · 11/01/2014, 23h07

bonjour,
je suis sur un projet scrapy et j'aimerais mettre dans le start_urls une liste d'urls présentes dans une base de données
est ce que vous pouvez m'aider ?
d'avance merci

j'ai essayé ca mais ca ne fonctionne pas elle prendre en compte uniquement la dernière url dans la base :-(

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 
class Crawl2Spider(BaseSpider):
    name = "crawl2"
    import MySQLdb
    db = MySQLdb.connect(host="localhost", user="root", passwd="", db="crawler_engine", charset = 'utf8', use_unicode = False)
    cur = db.cursor()
    cur2 = db.cursor()
    cur.execute("select url from urls where num_crawl=1")
    vers = cur.fetchall()
    for i in range(cur.rowcount):
        #liste des urls que nous allons parcourir qui est le resultat de la requete precedente
        start_urls = vers[i]
        def parse(self, response):
            hxs = HtmlXPathSelector(response)
            item = DmozItem()
            item['link'] = hxs.select('//div/ul/li/a/@href').extract()
            cursor = self.db.cursor()
            for j in range(len(item['link'])):
                cursor = self.db.cursor()
                sql = "insert into urls(url, domain, num_crawl) values ('%s','%s','%s')" % (item['link'][j],'test', 1)
                cursor.execute(sql)
                self.db.commit()
            return item

**wiztricks** · 12/01/2014, 00h20

Salut,

Si vous avez écrit ce code, pourquoi ne pas lui faire confiance?

cur.rowcount est le nombre d'URLS retourne par cur.execute("select url from urls where num_crawl=1").
S'il n'y en a qu'une, c'est que le "select" n'en trouve pas d'autres.

A partir de la, vous avez un utilitaire d'Admin pour voir ce que contient la table urls et la console Python pour tester, voir ce que retourne la requête en dehors du programme. Si c'est cohérent, le problème est "ailleurs". Un ailleurs connu de vous seul.

- W

**d4v1d6942** · 13/01/2014, 10h33

Bonjour
Merci pour votre retour
C'est bien moi qui est réalisé ce code et malheureusement il ne fonctionne pas.
J'ai réalisé un print vers[i] et je constate bien que le dev parcours l'ensemble des urls que retourne le select.
Cependant il doit y avoir une subtilité dans l'utilisation du start_urls qui fait que ca ne fonctionne pas et inscrit en base uniquement les urls de la seconde url et jamais la première.
Merci

**wiztricks** · 13/01/2014, 11h32

Envoyé par d4v1d6942

Cependant il doit y avoir une subtilité dans l'utilisation du start_urls qui fait que ca ne fonctionne pas et inscrit en base uniquement les urls de la seconde url et jamais la première.

Et si vous montriez ce que le code fait de start_urls?
- W

**d4v1d6942** · 13/01/2014, 14h01

Merci pour votre retour
en base j'ai 2 lignes avec 2 urls :
1. http://www.python.org/
2. http://scrapy.org/
J'ai réalisé un print vers[i] sous start_urls
et j'ai mis en pièce jointe le résultat de scrapy wrawl crawl2
on constat que vers a bien eu les 2 urls mais le résultat en base est qu'il m'a inséré que les urls de la seconde url soit scrapy.org
j'ai le sentiment que le self.db.commit ne fonctionne pas la première fois
Merci
a bientot

**wiztricks** · 13/01/2014, 14h10

Salut,
Si vous ne montrez pas le code qui fait ça, pas la peine de demander d'essayer de comprendre ce qu'il ne fait pas.
- W

scrapy et base de données

Python

Vue hybride

Discussions similaires

Partager

Partager