IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques tierces Python Discussion :

Comment implémenter différent IP pour différents comptes de login avec un spider avec Scrapy?


Sujet :

Bibliothèques tierces Python

  1. #1
    Membre régulier Avatar de AvySamaj
    Femme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    118
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 31
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 118
    Points : 75
    Points
    75
    Par défaut Comment implémenter différent IP pour différents comptes de login avec un spider avec Scrapy?
    J'ai beaucoup de pages à scraper, environ 200 000. D'habitude j'utilise Tor et Polipo proxy pour cacher le comportement de mes spiders même si ils sont polis, on ne sait jamais. Le problème c'est qu'en utilisant un compte pour se connecter à la page web, qui contient des informations intéressantes seulement si on se connecte, avoir une adresse IP changeante ce n'est pas très utile puisqu'il suffit au serveur de bannir le compte. En soi je sais comment faire tourner différentes "versions" d'un même spider:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    class ASpider(scrapy.Spider):
        name = "spider"
        start_urls = ['https://www.a_website.com/compte/login']
     
        def __init__ (self, username=None, password=None):
            self.username = username
            self.password = password
     
        def parse(self, response):
           token = response.css('[name="_csrf_token"]::attr(value)').get()
           data_log = {
                    '_csrf_token': token,
                    '_username': self.username,
                    '_password': self.password
                     }
            yield scrapy.FormRequest.from_response(response, formdata=data_log, callback=self.after_login) #La suite n'importe pas
    Ainsi il suffit de lancer plusieurs commandes:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    scrapy crawl spider -a username=Bidule -a password=TMTC #cmd1
    scrapy crawl spider -a username=Truc -a password=TMTC #cmd2
    Donc lancer un scrap avec plusieurs comptes en même temps pour aller plus vite et ne pas trop éveiller les soupçons du serveur je sais faire par contre de là à implémenter une adresse IP à chacun de ces spiders lancés, je ne sais pas faire. Peut-être que cela se fait déjà de toute façon avec la suite du code que je vais vous montrer, mais je ne sais pas comment le vérifier, et si il s'avérait que les différents spiders partagent le même IP je ne saurais pas comment faire autrement à l'heure actuelle.

    Pour plus de détails j'utilise ceci dans middlewares.py:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    class ProxyMiddleware(object):
     
        def process_request(self, request, spider):
            request.meta['proxy'] = settings.get('HTTP_PROXY')
    et ceci dans settings.py:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    # proxy for polipo
    HTTP_PROXY = 'http://127.0.0.1:8123'
    ....
    DOWNLOADER_MIDDLEWARES = {
        'folder.middlewares.RandomUserAgentMiddleware': 400,
        'folder.middlewares.ProxyMiddleware': 410, #Ici pour proxy
        'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None}
    Ce sont des schémas que j'ai copié depuis des exemples de tutos, mais je ne maîtrise pas la compétence pour autant.

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 283
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 283
    Points : 36 770
    Points
    36 770
    Par défaut
    Salut,


    Citation Envoyé par AvySamaj Voir le message
    Par contre de là à implémenter une adresse IP à chacun de ces spiders lancés, je ne sais pas faire. Peut-être que cela se fait déjà de toute façon avec la suite du code que je vais vous montrer, mais je ne sais pas comment le vérifier, et si il s'avérait que les différents spiders partagent le même IP je ne saurais pas comment faire autrement à l'heure actuelle.
    Si vous passez par un proxy, c'est lui qui va (éventuellement) gérer les différentes adresses IP (ou passer par plusieurs proxies).
    Après pour avoir plusieurs adresses IP, c'est d'abord côté "réseau" et système que çà se passe.
    Si elles existent, scrapy sait les utiliser via bindaddress.
    note: mais çà ne sert peut être à rien si vous êtes connectés à Internet via une "box".

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre régulier Avatar de AvySamaj
    Femme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    118
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 31
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 118
    Points : 75
    Points
    75
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Salut,
    Si vous passez par un proxy, c'est lui qui va (éventuellement) gérer les différentes adresses IP (ou passer par plusieurs proxies).
    Après pour avoir plusieurs adresses IP, c'est d'abord côté "réseau" et système que çà se passe.
    - W
    Après vérification, en lançant deux spiders comme indiqué j'ai la même adresse IP. Je n'ai pas encore tenter avec bindadress.

  4. #4
    Membre régulier Avatar de AvySamaj
    Femme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    118
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 31
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 118
    Points : 75
    Points
    75
    Par défaut Essai de bindaddress Echec
    J'ai mis ce que l'on trouve dans ce topic

    Dans middlewares.py:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    class BindAddressMiddleware(object):
        def __init__(self, settings):
            self.is_bindaddress = settings.get('IS_MORE_NETWORK_CARDS')
            if self.is_bindaddress:
                self.bindaddress = settings.get('BIND_ADDRESS')
     
        @classmethod
        def from_crawler(cls, crawler):
            return cls(crawler.settings)
     
        def process_request(self, request, spider):
            if self.is_bindaddress:
                if self.bindaddress:
                    request.meta['bindaddress'] = (self.bindaddress, 0)
            return None
     
        def spider_opened(self, spider):
            spider.logger.info('Using: %s as bindaddress' % self.bindaddress)
    settings.py

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    IS_MORE_NETWORK_CARDS = True
    BIND_ADDRESS = "127.0.0.1"
    ...
    DOWNLOADER_MIDDLEWARES = {
        'folder.middlewares.RandomUserAgentMiddleware': 400,
        'folder.middlewares.ProxyMiddleware': 410,
        'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
        'folder.middlewares.BindAddressMiddleware': 400,
    }
    J'ai toujours les mêmes adresses IP en lançant mes commandes comme montré plus haut. S'agit-il d'un petit règlagle dans les settings.py et middlewares.py? Ou bien qqch de plus conséquent?

    On notera que les protocoles internet ne sont pas mon domaine, je sais comment marche un proxy de façon générale (intermédiaire qui permet de cacher l'IP du réel envoyeur et receveur dans mon cas) mais dans le détail non.

  5. #5
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 283
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 283
    Points : 36 770
    Points
    36 770
    Par défaut
    Salut,

    Citation Envoyé par AvySamaj Voir le message
    S'agit-il d'un petit règlagle dans les settings.py et middlewares.py? Ou bien qqch de plus conséquent?
    De toutes façons, vous êtes obligés de faire comme n'importe quel développeur qui essaie de mettre en place une fonctionnalité de la bibliothèque trucmuche: chercher dans les bugs reports pour voir les soucis rencontrés par ceux qui ont essayé avant vous.
    Une entrée inintéressante est celle-ci: elle fournit un code qui vous permet de reproduire quelque chose et, outre de voir comment çà se configure, la réponse du développeur qui dit ne pas avoir reproduit le problème avec les dernières versions bien qu'il y ait des subtilités comme mentionnées dans cette entrée.


    Citation Envoyé par AvySamaj Voir le message
    On notera que les protocoles internet ne sont pas mon domaine, je sais comment marche un proxy de façon générale (intermédiaire qui permet de cacher l'IP du réel envoyeur et receveur dans mon cas) mais dans le détail non.
    L'enfer est dans les détails...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  6. #6
    Membre régulier Avatar de AvySamaj
    Femme Profil pro
    Étudiant
    Inscrit en
    Décembre 2016
    Messages
    118
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 31
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2016
    Messages : 118
    Points : 75
    Points
    75
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Salut,
    L'enfer est dans les détails...
    - W
    Plutôt facile la moquerie en se cachant derrière un écran. On sent le courage qui émane de vos écrits...

Discussions similaires

  1. Réponses: 2
    Dernier message: 23/09/2009, 21h24
  2. Comment implémenter les méthodes pour sauvegarder un fichier ?
    Par ti3um dans le forum Eclipse Platform
    Réponses: 1
    Dernier message: 10/04/2009, 16h13
  3. Réponses: 4
    Dernier message: 27/08/2007, 12h11
  4. Réponses: 2
    Dernier message: 21/05/2007, 14h32
  5. Réponses: 3
    Dernier message: 05/12/2006, 16h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo