Webscraping,boucle avec BeautifulSoup

Version imprimable

Bonjour à tous,

je m'entraine sur Python avec BeautifulSoup et j'aimerai que mon robot puisse parcourir cet URL : https://www.nyrr.org/charities-clubs.../club-listing/

et cliquer sur les clubs par exemple le premier club = https://www.nyrr.org/charities-clubs...listing/3runpl

puis à l'intérieur de ces pages, j'aimerai récupérer toutes les balises 'p' qui sont dans balise 'div class = contactbox'

J'ai cru comprendre qu'il fallait utiliser une Regex pour pouvoir parcourir un domaine en boucle mais malgré la documentation et les vidéos, je bloque sur sa création avec le re.compile :s

Pourriez vous me donner une piste pour avancer s'il vous plait ? Merci d'avance.

Voici mon petit bout de code qui arrive à récupérer cette information pour une page unique.
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 from bs4 import BeautifulSoup from urllib.request import Request, urlopen from urllib.error import HTTPError from urllib.error import URLError from datetime import datetime import re import random import csv t1 = datetime.now() req = Request('https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl', headers = {'User-Agent': 'Mozilla/5.0'}) html = urlopen(req) bs = BeautifulSoup(html.read(), 'html.parser') for string in bs.find('div', {'class':'contactbox'}).findAll('p'): print(string.get_text()) t2 = datetime.now() total = t2 -t1 print('le récolte a duré exactement', total, 'plutôt rapide non ?')
Il y a des packages inutilisés, je les prévois pour des exercices plus tard après avoir lu de la doc à leurs sujets.

25/08/2018, 10h20
wiztricks

Salut,

Votre code devrait déjà réaliser

Citation:

récupérer toutes les balises 'p' qui sont dans balise 'div class = contactbox'

.

Après quand vous dites:

Citation:

J'ai cru comprendre qu'il fallait utiliser une Regex pour pouvoir parcourir un domaine en boucle mais malgré la documentation et les vidéos, je bloque sur sa création avec le re.compile :s

sans montrer ce que vous avez essayé de faire pas facile d'imaginer à quoi vous voulez appliquez cette regex ni les difficultés que vous rencontrez.
Difficile de vous donner des pistes pour avancer si vous ne décrivez pas un peu mieux tout çà.

- W
28/08/2018, 23h38
dariusvba

Regex de noob

Salut,

Voila la Regex que j'ai essayé de programmer mais j'ai beaucoup d'erreurs de syntaxe. En gros j'ai essayé d'adapter un exercice ou on parcours wikipedia pour récupérer tous les liens des articles relié à une même page.

Ce que j'aimerai vraiment réussir à faire avec Python , ça serai de parcourir un bout d'url précis du style http://www.nyrr.org/charities-clubs-...listing/?????? ou l'expression régulière permettrai de faire une boucle pour trouver tous les urls à partir de cette racine.

Quelqu'un aurait une idée de comment faire ça s'il vous plait ? Est ce que une Regex est ce qu'il y a de plus adapté ou ya t'il un moyen plus simple de le faire ?

Merci pour votre temps.

#from bs4 import BeautifulSoup
#from urllib.request import Request, urlopen
#from urllib.error import HTTPError
#from urllib.error import URLError
#import datetime
#import re
#import random
#import csv

#random.seed(datetime.datetime.now())

#def Getcontactbox(balP):
# req = Request('https://www.nyrr.org{}'.format(balP), headers = {'User-Agent': 'Mozilla/5.0'})
# html = urlopen(req)
# bs = BeautifulSoup(html.read(), 'html.parser')
# return bs.find('p', {'class':'ContactBox'}).findAll('p',
# req=re.compile('^(/charities-clubs-and-community/local-clubs/club-listing/3runpl)([A-Za-z0-9].[A-Za-z0-9])*$')
#
#urlloop = Getcontactbox('/charities-clubs-and-community/local-clubs/club-listing/3runpl')
#while len(urlloop) > 0:
# Newcontact = urlloop[random.randint(0, len(urlloop)-1)].attrs['req']
# print(urlloop)
# urlloop = Getcontactbox(Newcontact)

Salut,

La recherche dans des pages html avec des expressions régulières est considérée comme peu fiable.

Soit tu utilises pleinement Beautifulsoup soit un module inclus dans Python HtmlParser.

Avec ton exemple ça reste simple:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
 
from html.parser import HTMLParser
 
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_contact = False
        self.in_value = False
        self.info = False
        self.facebook = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "div":
            for att in attrs:
                if att[0] == 'class' and att[1] == "contactbox":
                    self.in_contact = True
 
        elif self.in_contact and tag == "p":
            self.in_value = True
 
        elif self.in_value and tag == "a":
            for att in attrs:
                if att[0] == 'href':
                    self.facebook = att[1]
            self.in_contact = False
            self.in_value = False
 
    def handle_endtag(self, tag):
        if self.in_contact and tag == "div":
            self.in_contact = False
            self.in_value = False
 
    def handle_data(self, data):
        if self.in_value:
            txt = data.strip()
            if txt and txt.replace(" ", "").isdecimal():
                self.info = txt
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)
print("Facebook: %s" % parser.facebook)

29/08/2018, 12h39
dariusvba

Merci !

Merci beaucoup VinsS pour ta réponse !!

Je vais l'étudier de près et essayer de l'appliquer sur d'autres cas. MERCI ENCORE ça m'aide vraiment beaucoup :)
29/08/2018, 14h47
wiztricks

Salut,

Citation:

Envoyé par dariusvba

Ce que j'aimerai vraiment réussir à faire avec Python , ça serai de parcourir un bout d'url précis du style http://www.nyrr.org/charities-clubs-...listing/?????? ou l'expression régulière permettrai de faire une boucle pour trouver tous les urls à partir de cette racine.

Il y a déjà pas mal de chose prête à l'emploi dans la bibliothèque standard urllib.parse.

- W
29/08/2018, 15h47
dariusvba

Merci Wiztricks !

Citation:

Envoyé par wiztricks

Salut,

Il y a déjà pas mal de chose prête à l'emploi dans la bibliothèque standard urllib.parse.

- W

Je vais aller voir si j'arrive à comprendre cette documentation, merci beaucoup Wiztricks !

Citation:

Envoyé par VinsS

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
 
from html.parser import HTMLParser
 
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_contact = False
        self.in_value = False
        self.info = False
        self.facebook = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "div":
            for att in attrs:
                if att[0] == 'class' and att[1] == "contactbox":
                    self.in_contact = True
 
        elif self.in_contact and tag == "p":
            self.in_value = True
 
        elif self.in_value and tag == "a":
            for att in attrs:
                if att[0] == 'href':
                    self.facebook = att[1]
            self.in_contact = False
            self.in_value = False
 
    def handle_endtag(self, tag):
        if self.in_contact and tag == "div":
            self.in_contact = False
            self.in_value = False
 
    def handle_data(self, data):
        if self.in_value:
            txt = data.strip()
            if txt and txt.replace(" ", "").isdecimal():
                self.info = txt
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)
print("Facebook: %s" % parser.facebook)

Grâce à ton code j'ai bien compris la logique des lists init avec self merci, mais ou est ce que je dois définir l'URL pour pouvoir scraper mon site s'il te plait ?

Ben, moi dans mon exemple j'avais copié le code source de la page dans un fichier
Code:

1 2 3 4 5 6 with open("3RunPl", "r") as inf: content = inf.read() parser = Parser() parser.feed(content)
tu dois donc remplacer les deux premières lignes par
Code:

1 2 3 req = Request('https://www...........) content = urlopen(req).read()

02/09/2018, 15h56
dariusvba
Citation:
Envoyé par VinsS

Ben, moi dans mon exemple j'avais copié le code source de la page dans un fichier

Code:

1 2 3 4 5 6 with open("3RunPl", "r") as inf: content = inf.read() parser = Parser() parser.feed(content)

tu dois donc remplacer les deux premières lignes par

Code:

1 2 3 req = Request('https://www...........) content = urlopen(req).read()
Ah énorme merci. Du coup le fichier 3runPl tu la save en py avec req ou le résultat en txt pour pouvoir l'utiliser comme ça ? J'imagine qu'il faut laisser le fichier dans le même dossier que son code lecture ?
02/09/2018, 17h06
VinsS

Non, ce n'est pas ça, moi je l'ai fais parce que j'ai affiché le source de la page avec Firefox mais toi tu peux continuer à faire comme dans ton premier code et lire le contenu de la page avec Request et read() et tu passes le contenu au parser. Pas besoin de passer par un fichier.

Merci !

Ok merci ! Pour l'url plutot que request j'utilise urlopen du coup mais j'ai l'impression que le site repère le crawler car je tombe sur une 403 error.
Je n'arrive pas non plus à identifier la boucle dans l'url de ton code. Quel est le mécanisme pour changer les pages ?

Avant j'arrivai à utiliser le headers pour simuler le browser mais la ça me dit non maintenant alors que je l'utilise de la même manière

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
headers = {'User-Agent': 'Mozilla/5.0'}
#from html.parser import HTMLParser
#from urllib.request import urlopen
#
#req = ("https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl", headers = {'User-Agent': 'Mozilla/5.0'})
#
#content = urlopen(req).read()
#
#class Parser(HTMLParser):
#    def __init__(self):
#        super().__init__()
#        self.in_contact = False
#        self.in_value = False
#        self.info = False
#        self.facebook = False
# 
#    def handle_starttag(self, tag, attrs):
#        if tag == "div":
#            for att in attrs:
#                if att[0] == 'class' and att[1] == "contactbox":
#                    self.in_contact = True
# 
#        elif self.in_contact and tag == "p":
#            self.in_value = True
# 
#        elif self.in_value and tag == "a":
#            for att in attrs:
#                if att[0] == 'href':
#                    self.facebook = att[1]
#            self.in_contact = False
#            self.in_value = False
# 
#    def handle_endtag(self, tag):
#        if self.in_contact and tag == "div":
#            self.in_contact = False
#            self.in_value = False
# 
#    def handle_data(self, data):
#        if self.in_value:
#            txt = data.strip()
#            if txt and txt.replace(" ", "").isdecimal():
#               self.info = txt
# 
#
# 
#parser = Parser()
#parser.feed(content)
#print("Contact info: %s" % parser.info)
# print("Facebook: %s" % parser.facebook)

Aucun problème comme ceci:

Code:

1
2
3
4
5
6
7
8
9
10
 
url = "https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl"
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:49.0)'\
                  ' Gecko/20100101 Firefox/49.0'
req = urllib.request.Request(url, data=None,  headers={"User-Agent": user_agent})
content = urllib.request.urlopen(req).read().decode('utf-8', 'replace')
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)  # --> Contact info: 718 724 4390
print("Facebook: %s" % parser.facebook)  # --> Facebook: https://www.facebook.com/3RunPl