importer des données d'un site avec BeautifulSoup

**cdevl37** · 31/03/2023, 16h18

Bonjour,

Je voudrais récupérer des données d'un site et je pense avoir tout bien indiqué et il me donne aucun résultat, quand je fais un

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

python test.py

il ne donne rien avez vous une idée ?
Mon print(page) me donne bien un résultat "200".

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
from bs4 import BeautifulSoup
import requests
 
url = "https://www.pararius.com/apartments/amsterdam?ac=1"
page = requests.get(url)
# print(page)
 
soup = BeautifulSoup(page.content, 'html.parser')
lists = soup.find_all('section', class_="listing-search-item")
 
for list in lists:
    title = list.find('a', class_="listing-search-item__link--title")
    location = list.find('div', class_="listing-search-item__location")
    price = list.find('span', class_="listing-search-item__price")
    area = list.find('span', class_="illustrated-features__description")
    info = [title, location, price, area]
    print(info)

**wiztricks** · 31/03/2023, 16h44

Salut,

Récupérer les données d'un site Web se fait via une requête HTTP (dans votre code, c'est requests.get qui fait ce boulot). On a alors une chaine de caractères qui est sous la forme d'un document HTML (si on n'a pas demandé autre chose). C'est pour chercher des informations dans ce document que BS intervient.

Et donc si la boucle for ne passe pas par les "print", on peut penser qu'à priori lists est vide. Or c'est ce que retourne soup.find_all('section', class_="listing-search-item") et... c'est là qu'on regarde le contenu du HTML (ici page.content) pour vérifier que ce qu'on cherche existe et qu'on réfléchit pourquoi ce n'est pas là.

- W

**jurassic pork** · 31/03/2023, 17h03

Hello,
si ton site utilise des scripts javascript pour générer les données affichées (pages dynamiques) cela ne fonctionnera pas. Un requests.get va chercher le code source de la page, si il y a des scripts dedans pour générer les données ce sont les navigateurs qui vont exécuter ces scripts et alors afficher les données. Dans ce cas il faut utiliser une bibliothèque comme selenium qui pilotera un navigateur et pourra extraire les données affichées dans le navigateur.
Ami calmant, J.P

**papajoker** · 31/03/2023, 17h24

bonjour

1) Mais pourquoi ne pas faire un print() après ton get ? La moindre des choses est de regarder ce que tu vas avoir comme code html
2) Du n'importe quoi dans tes find(), la moindre des choses, c'est de lire le code html pour savoir ce qu'il faut chercher. Tu inventes des classes à chercher, et recherche de mauvais tags.

**umfred** · 31/03/2023, 19h17

a noter aussi que tu écrases info à chaque tour de boucle (mais c'est peut-être normal pour le moment)

**binarygirl** · 31/03/2023, 22h41

Envoyé par papajoker

1) Mais pourquoi ne pas faire un print() après ton get ? La moindre des choses est de regarder ce que tu vas avoir comme code html

Ou mieux encore, cracher le code HTML reçu dans un log, c'est plus facile à examiner.

Et attention au shadowing de mots-clé réservés comme list...

importer des données d'un site avec BeautifulSoup

Python

Discussions similaires

Partager

Partager