IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

scrapy et mysql


Sujet :

Python

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Février 2013
    Messages
    7
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 7
    Par défaut scrapy et mysql
    Bonjour
    Je suis débutant en python et ai un problème de compréhension avec l'insertion de données en base.
    Mon objectif est d'insérer l'intégralité des liens trouvé sur un site dans une base cependant impossible d'insérer toutes les urls en base à chaque fois je n'insère qu'une ligne
    Surement une incompréhension de ma part sur le fonctionnement de scrapy mais j'ai besoin d'un coup de main pour mieux comprendre
    Vous trouverez ci-dessous les différents fichiers avec lesquels je travail
    D'avance merci

    itemp.spy
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    from scrapy.item import Item, Field
    class TutorialItem(Item):
        pass
    class DmozItem(Item):
        link = Field()
    settings.py
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    BOT_NAME = 'tutorial'
    SPIDER_MODULES = ['tutorial.spiders']
    NEWSPIDER_MODULE = 'tutorial.spiders'
    ITEM_PIPELINES = ['tutorial.pipelines.MySQLPipeline']
    pipelines.py
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
     
    class MySQLPipeline(object):
        def __init__(self):
            import MySQLdb
            self.db = MySQLdb.connect(host="localhost", user="root", passwd="", db="crawler_engine")
     
        def process_item(self, item, spider):
            cursor = self.db.cursor()
            sql = "insert into urls(url, domain, num_crawl) values ('%s','%s','%s')" % (item['link'][0],'probikeshop', 1)
            cursor.execute(sql)
            return item
     
        def spider_closed(self, spider):
            self.db.commit()
    __init__.py
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    from scrapy.spider import BaseSpider
    from scrapy.selector import Selector
    from tutorial.items import DmozItem
    from scrapy.selector import HtmlXPathSelector
    from scrapy.contrib.spiders import CrawlSpider
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    class Dmozv0Spider(BaseSpider):
        name = "dmozv0"
        allowed_domains = ["python.org"]
        start_urls = ["http://www.python.org/"]
     
        def parse(self, response):
            hxs = HtmlXPathSelector(response)
            item = DmozItem()
            item['link'] = hxs.select('//div/ul/li/a/@href').extract()
            return item

  2. #2
    Membre du Club
    Profil pro
    Inscrit en
    Février 2013
    Messages
    7
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2013
    Messages : 7
    Par défaut
    j'ai trouvé ;-)

    pipelines.py
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
     
    class MySQLPipeline(object):
        def __init__(self):
            import MySQLdb
            self.db = MySQLdb.connect(host="localhost", user="root", passwd="", db="crawler_engine", charset = 'utf8', use_unicode = False)
     
        def process_item(self, item, spider):
            cursor = self.db.cursor()
            for i in range(len(item['link'])):
                cursor = self.db.cursor()
                sql = "insert into urls(url, domain, num_crawl) values ('%s','%s','%s')" % (item['link'][i],'probikeshop', 1)
                cursor.execute(sql)
                self.db.commit()
            return item

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Kylix] Kylix attaque Mysql ?
    Par nahmsath dans le forum EDI
    Réponses: 9
    Dernier message: 12/08/2002, 19h37
  2. [Kylix] [cgi] pb déploiement appli avec connexion MySQL [rés
    Par Nepomiachty Olivier dans le forum EDI
    Réponses: 3
    Dernier message: 06/08/2002, 20h09
  3. Probleme C++Builder et Mysql
    Par noname dans le forum C++Builder
    Réponses: 3
    Dernier message: 20/06/2002, 13h40
  4. connection a une BDD MySql
    Par delire8 dans le forum MFC
    Réponses: 7
    Dernier message: 19/06/2002, 18h18
  5. [Kylix] Pb connection à Mysql
    Par Anonymous dans le forum EDI
    Réponses: 3
    Dernier message: 25/04/2002, 15h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo