Webscraping,boucle avec BeautifulSoup

**dariusvba** · 24/08/2018, 23h58

Bonjour à tous,

je m'entraine sur Python avec BeautifulSoup et j'aimerai que mon robot puisse parcourir cet URL : https://www.nyrr.org/charities-clubs.../club-listing/

et cliquer sur les clubs par exemple le premier club = https://www.nyrr.org/charities-clubs...listing/3runpl

puis à l'intérieur de ces pages, j'aimerai récupérer toutes les balises 'p' qui sont dans balise 'div class = contactbox'

J'ai cru comprendre qu'il fallait utiliser une Regex pour pouvoir parcourir un domaine en boucle mais malgré la documentation et les vidéos, je bloque sur sa création avec le re.compile :s

Pourriez vous me donner une piste pour avancer s'il vous plait ? Merci d'avance.

Voici mon petit bout de code qui arrive à récupérer cette information pour une page unique.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from datetime import datetime
import re
import random
import csv
 
 
t1 = datetime.now()
 
req = Request('https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl', headers = {'User-Agent': 'Mozilla/5.0'})
 
html = urlopen(req)
 
bs = BeautifulSoup(html.read(), 'html.parser')
 
for string in bs.find('div', {'class':'contactbox'}).findAll('p'):
    print(string.get_text())
 
t2 = datetime.now()
 
total = t2 -t1
print('le récolte a duré exactement', total, 'plutôt rapide non ?')

Il y a des packages inutilisés, je les prévois pour des exercices plus tard après avoir lu de la doc à leurs sujets.

**wiztricks** · 25/08/2018, 10h20

Salut,

Votre code devrait déjà réaliser

récupérer toutes les balises 'p' qui sont dans balise 'div class = contactbox'

.

Après quand vous dites:

J'ai cru comprendre qu'il fallait utiliser une Regex pour pouvoir parcourir un domaine en boucle mais malgré la documentation et les vidéos, je bloque sur sa création avec le re.compile :s

sans montrer ce que vous avez essayé de faire pas facile d'imaginer à quoi vous voulez appliquez cette regex ni les difficultés que vous rencontrez.
Difficile de vous donner des pistes pour avancer si vous ne décrivez pas un peu mieux tout çà.

- W

**dariusvba** · 28/08/2018, 23h38

Salut,

Voila la Regex que j'ai essayé de programmer mais j'ai beaucoup d'erreurs de syntaxe. En gros j'ai essayé d'adapter un exercice ou on parcours wikipedia pour récupérer tous les liens des articles relié à une même page.

Ce que j'aimerai vraiment réussir à faire avec Python , ça serai de parcourir un bout d'url précis du style http://www.nyrr.org/charities-clubs-...listing/?????? ou l'expression régulière permettrai de faire une boucle pour trouver tous les urls à partir de cette racine.

Quelqu'un aurait une idée de comment faire ça s'il vous plait ? Est ce que une Regex est ce qu'il y a de plus adapté ou ya t'il un moyen plus simple de le faire ?

Merci pour votre temps.

#from bs4 import BeautifulSoup
#from urllib.request import Request, urlopen
#from urllib.error import HTTPError
#from urllib.error import URLError
#import datetime
#import re
#import random
#import csv

#random.seed(datetime.datetime.now())

#def Getcontactbox(balP):
# req = Request('https://www.nyrr.org{}'.format(balP), headers = {'User-Agent': 'Mozilla/5.0'})
# html = urlopen(req)
# bs = BeautifulSoup(html.read(), 'html.parser')
# return bs.find('p', {'class':'ContactBox'}).findAll('p',
# req=re.compile('^(/charities-clubs-and-community/local-clubs/club-listing/3runpl)([A-Za-z0-9].[A-Za-z0-9])*$')
#
#urlloop = Getcontactbox('/charities-clubs-and-community/local-clubs/club-listing/3runpl')
#while len(urlloop) > 0:
# Newcontact = urlloop[random.randint(0, len(urlloop)-1)].attrs['req']
# print(urlloop)
# urlloop = Getcontactbox(Newcontact)

**VinsS** · 29/08/2018, 09h54

Salut,

La recherche dans des pages html avec des expressions régulières est considérée comme peu fiable.

Soit tu utilises pleinement Beautifulsoup soit un module inclus dans Python HtmlParser.

Avec ton exemple ça reste simple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
 
from html.parser import HTMLParser
 
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_contact = False
        self.in_value = False
        self.info = False
        self.facebook = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "div":
            for att in attrs:
                if att[0] == 'class' and att[1] == "contactbox":
                    self.in_contact = True
 
        elif self.in_contact and tag == "p":
            self.in_value = True
 
        elif self.in_value and tag == "a":
            for att in attrs:
                if att[0] == 'href':
                    self.facebook = att[1]
            self.in_contact = False
            self.in_value = False
 
    def handle_endtag(self, tag):
        if self.in_contact and tag == "div":
            self.in_contact = False
            self.in_value = False
 
    def handle_data(self, data):
        if self.in_value:
            txt = data.strip()
            if txt and txt.replace(" ", "").isdecimal():
                self.info = txt
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)
print("Facebook: %s" % parser.facebook)

**dariusvba** · 29/08/2018, 12h39

Merci beaucoup VinsS pour ta réponse !!

Je vais l'étudier de près et essayer de l'appliquer sur d'autres cas. MERCI ENCORE ça m'aide vraiment beaucoup

**wiztricks** · 29/08/2018, 14h47

Salut,

Envoyé par dariusvba

Ce que j'aimerai vraiment réussir à faire avec Python , ça serai de parcourir un bout d'url précis du style http://www.nyrr.org/charities-clubs-...listing/?????? ou l'expression régulière permettrai de faire une boucle pour trouver tous les urls à partir de cette racine.

Il y a déjà pas mal de chose prête à l'emploi dans la bibliothèque standard urllib.parse.

- W

**dariusvba** · 29/08/2018, 15h47

Envoyé par wiztricks

Salut,

Il y a déjà pas mal de chose prête à l'emploi dans la bibliothèque standard urllib.parse.

- W

Je vais aller voir si j'arrive à comprendre cette documentation, merci beaucoup Wiztricks !

**dariusvba** · 02/09/2018, 09h26

Envoyé par VinsS

Salut,

La recherche dans des pages html avec des expressions régulières est considérée comme peu fiable.

Soit tu utilises pleinement Beautifulsoup soit un module inclus dans Python HtmlParser.

Avec ton exemple ça reste simple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
 
from html.parser import HTMLParser
 
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_contact = False
        self.in_value = False
        self.info = False
        self.facebook = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "div":
            for att in attrs:
                if att[0] == 'class' and att[1] == "contactbox":
                    self.in_contact = True
 
        elif self.in_contact and tag == "p":
            self.in_value = True
 
        elif self.in_value and tag == "a":
            for att in attrs:
                if att[0] == 'href':
                    self.facebook = att[1]
            self.in_contact = False
            self.in_value = False
 
    def handle_endtag(self, tag):
        if self.in_contact and tag == "div":
            self.in_contact = False
            self.in_value = False
 
    def handle_data(self, data):
        if self.in_value:
            txt = data.strip()
            if txt and txt.replace(" ", "").isdecimal():
                self.info = txt
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)
print("Facebook: %s" % parser.facebook)

Grâce à ton code j'ai bien compris la logique des lists init avec self merci, mais ou est ce que je dois définir l'URL pour pouvoir scraper mon site s'il te plait ?

**VinsS** · 02/09/2018, 09h35

Ben, moi dans mon exemple j'avais copié le code source de la page dans un fichier

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)

tu dois donc remplacer les deux premières lignes par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
req = Request('https://www...........)
content = urlopen(req).read()

**dariusvba** · 02/09/2018, 15h56

Envoyé par VinsS

Ben, moi dans mon exemple j'avais copié le code source de la page dans un fichier

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
with open("3RunPl", "r") as inf:
    content = inf.read()
 
parser = Parser()
parser.feed(content)

tu dois donc remplacer les deux premières lignes par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
req = Request('https://www...........)
content = urlopen(req).read()

Ah énorme merci. Du coup le fichier 3runPl tu la save en py avec req ou le résultat en txt pour pouvoir l'utiliser comme ça ? J'imagine qu'il faut laisser le fichier dans le même dossier que son code lecture ?

**VinsS** · 02/09/2018, 17h06

Non, ce n'est pas ça, moi je l'ai fais parce que j'ai affiché le source de la page avec Firefox mais toi tu peux continuer à faire comme dans ton premier code et lire le contenu de la page avec Request et read() et tu passes le contenu au parser. Pas besoin de passer par un fichier.

**dariusvba** · 02/09/2018, 19h19

Ok merci ! Pour l'url plutot que request j'utilise urlopen du coup mais j'ai l'impression que le site repère le crawler car je tombe sur une 403 error.
Je n'arrive pas non plus à identifier la boucle dans l'url de ton code. Quel est le mécanisme pour changer les pages ?

Avant j'arrivai à utiliser le headers pour simuler le browser mais la ça me dit non maintenant alors que je l'utilise de la même manière

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
headers = {'User-Agent': 'Mozilla/5.0'}
#from html.parser import HTMLParser
#from urllib.request import urlopen
#
#req = ("https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl", headers = {'User-Agent': 'Mozilla/5.0'})
#
#content = urlopen(req).read()
#
#class Parser(HTMLParser):
#    def __init__(self):
#        super().__init__()
#        self.in_contact = False
#        self.in_value = False
#        self.info = False
#        self.facebook = False
# 
#    def handle_starttag(self, tag, attrs):
#        if tag == "div":
#            for att in attrs:
#                if att[0] == 'class' and att[1] == "contactbox":
#                    self.in_contact = True
# 
#        elif self.in_contact and tag == "p":
#            self.in_value = True
# 
#        elif self.in_value and tag == "a":
#            for att in attrs:
#                if att[0] == 'href':
#                    self.facebook = att[1]
#            self.in_contact = False
#            self.in_value = False
# 
#    def handle_endtag(self, tag):
#        if self.in_contact and tag == "div":
#            self.in_contact = False
#            self.in_value = False
# 
#    def handle_data(self, data):
#        if self.in_value:
#            txt = data.strip()
#            if txt and txt.replace(" ", "").isdecimal():
#               self.info = txt
# 
#
# 
#parser = Parser()
#parser.feed(content)
#print("Contact info: %s" % parser.info)
# print("Facebook: %s" % parser.facebook)

**VinsS** · 02/09/2018, 20h26

Aucun problème comme ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
url = "https://www.nyrr.org/charities-clubs-and-community/local-clubs/club-listing/3runpl"
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:49.0)'\
                  ' Gecko/20100101 Firefox/49.0'
req = urllib.request.Request(url, data=None,  headers={"User-Agent": user_agent})
content = urllib.request.urlopen(req).read().decode('utf-8', 'replace')
parser = Parser()
parser.feed(content)
print("Contact info: %s" % parser.info)  # --> Contact info: 718 724 4390
print("Facebook: %s" % parser.facebook)  # --> Facebook: https://www.facebook.com/3RunPl

Webscraping,boucle avec BeautifulSoup

Python

Discussions similaires

Partager

Partager