extraction données web via python

**Matthieu221** · 21/10/2022, 19h55

Bonjour à tous,

je débute en Python et je souhaite extraire d'un site internet à URL changeant, des données (en l'occurrence, des titres d'articles) .
Quand je dis que l'URL change, c'est que des articles sont sur la page 1, la suite sur la page 2 etc et donc que l'URL se modifie en conséquence .

J'ai donc codé le script ci dessous . Celui ci fonctionne mais uniquement pour une page . Visiblement la boucle ne fonctionne pas ou bien l'erreur est ailleurs

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
--------------------------------------------------------------
import requests
from bs4 import BeautifulSoup as bs
 
URL = "https://www.medincell.com/fr/2022/page/"
 
for pages in range(0,2):
 
 req = requests.get(URL + str(pages) + '/')
 soup = bs(req.text, 'html.parser')
 
class_name= "read_more"
 
titles = soup.find_all('p',class_=class_name)
titles
 
-------------------------------------------

merci pour votre aide !

Matthieu

Invité · 21/10/2022, 21h48

Salut !

Merci d'utiliser la balise [code] ! Bouton #

for pages in range(0,2): donne 0 et 1, c'est ce que tu veux ? Ou 1 et 2 ?

**Matthieu221** · 21/10/2022, 21h56

Salut LeNarvalo !

en fait sur ce que je souhaite extraire, il y a 3 pages . Par défaut j'avais mis donc range (1,3) mais ça ne fonctionne pas non plus . J'ai donc mis (0,2) (comme le 0 compte on arrive à 3 mais bon echec la aussi )

**tyrtamos** · 22/10/2022, 03h43

Bonjour

Je me suis inspiré du site web:
https://proxyway.com/knowledge-base/...-beautifulsoup

Attention: c'est du Python 3.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#!/usr/bin/python
# -*- coding: utf-8 -*-
 
from bs4 import BeautifulSoup
import requests
 
start_url = "https://www.medincell.com/fr/2022"
 
def get_data(content):
    #...
    # ici extraction des données cherchées
    #...
    pass
 
def scrape_page(url):
    print ("URL: " + url)
    r = requests.get(url)
    soup = BeautifulSoup(r.content, "html.parser")
    get_data(soup)
 
    next_page_link = soup.find("a", class_="next")
    if next_page_link is not None:
        href = next_page_link.get("href")
        scrape_page(href)
    else:
        print ("Done")
 
if __name__ == "__main__":
    scrape_page(start_url)

Ce code retrouve bien les 4 pages de l'adresse "https://www.medincell.com/fr/2022", mais pas avec la terminaison "/page".

Il ne reste plus qu'à ajouter l'extraction des données dans la fonction "get_data(content)".

**Matthieu221** · 22/10/2022, 14h18

Bonjour Tyrtamos

Merci de t'être penché sur mon problème !

Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)

Un grand merci

**tyrtamos** · 22/10/2022, 15h40

Envoyé par Matthieu221

Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)

Compte tenu de tes questions, tu as besoin d'un bon cours de formation en Python. Je vais te donner un coup de pouce, mais je n'ai aucune chance de le remplacer!

Qu'est-ce que c'est qu'une fonction? C'est une nouvelle instruction du langage crée à l'exécution.
Exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
def test(x, y):
    print(x*y)
 
test(2, 3)
6 # <= réponse

Pourquoi on atteint toutes les pages sans qu'il y ait une boucle? Parce que la fonction s'appelle elle-même (on dit qu'elle est "récursive"). Voir le code à la ligne 24. Et les appels s'arrêtent quand la condition prévue est atteinte, ici: next_page_link == None. Alors, la fonction s'arrête après avoir affiché "Done".

Que mettre dans la fonction data_content? Ce que tu as déjà mis dans ton petit code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
def get_data(content):
    # ici extraction des données cherchées
 
    class_name= "read_more"
 
    titles = content.find_all('p',class_=class_name)
    print(titles)

Ce qui donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
URL: https://www.medincell.com/fr/2022
[<p class="read_more"><a href="https://www.medincell.com/fr/2022/09/14/medincell-signe-un-accord-de-licence-avec-le-medicines-patent-pool-pour-lutter-contre-la-transmission-du-paludisme-dans-le-cadre-de-son-engagement-pour-la-sante-dans-le-monde/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/13/medincell-annonce-les-resultats-de-son-assemblee-generale-ordinaire-annuelle-et-extraordinaire-du-8-septembre-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/05/medincell-obtient-un-financement-supplementaire-de-20-millions-deuros-aupres-de-la-banque-europeenne-dinvestissement-bei/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/29/lancement-dune-etude-de-phase-3-pour-le-deuxieme-antipsychotique-injectable-a-action-prolongee-utilisant-la-technologie-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/17/medincell-societe-a-impact-engagee-dans-lamelioration-de-la-sante-des-patients-dans-le-monde-publie-son-rapport-annuel-rse-2021-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/08/modalites-de-participation-a-lassemblee-generale-mixte-des-actionnaires-2/">Lire le communiqué</a></p>]
URL: https://www.medincell.com/fr/2022/page/2/
[<p class="read_more"><a href="https://www.medincell.com/fr/2022/07/29/medincell-met-a-disposition-son-document-denregistrement-universel-2021-2022-incluant-le-rapport-financier-annuel/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/07/28/le-partenaire-de-medincell-teva-confirme-attendre-lapprobation-et-la-commercialisation-aux-etats-unis-de-mdc-irm-tev46000-au-premier-semestre-2023/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/14/medincell-publie-ses-resultats-financiers-annuels-consolides/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/07/videoconference-et-publication-des-resultats-financiers-de-lexercice-2021-2022-le-14-juin-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/09/dr-richard-malamut-specialiste-du-developpement-pharmaceutique-aux-etats-unis-devient-directeur-medical-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/03/teva-partenaire-de-medincell-apporte-des-informations-supplementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>]
URL: https://www.medincell.com/fr/2022/page/3/
[<p class="read_more"><a href="https://www.medincell.com/fr/2022/04/20/medincell-fournit-des-informations-complementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/19/teva-et-medincell-ont-recu-une-lettre-de-reponse-complete-pour-tv-46000-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/08/medincell-christophe-douat-president-du-directoire-repondra-en-direct-aux-investisseurs-sur-boursorama-com-jeudi-21-avril-a-18h00/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/03/28/medincell-inclusion-des-premiers-participants-dans-letude-de-prophylaxie-du-covid-19-saive/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/01/14/publication-du-calendrier-financier-2022/">Lire le communiqué</a></p>]
Done

A noter qu'il n'y a plus que 3 pages effectivement.

Si tu veux plus d'infos sur beautifulsoup pour faire un meilleurs découpage, je laisse quelqu'un d'autre répondre, parce que je suis loin d'en être familier. Et il y a une belle doc:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Pour un bon cours de formation, il y en a beaucoup:
https://python.developpez.com/cours/
Voir en particulier celui de Gérard Swinnen, qui doit exister encore sous Python 2 (version obsolète !)

Il y a aussi une belle documentation Python en ligne (en français!):
Python 3 => https://docs.python.org/fr/3/
Python 2 => https://docs.python.org/fr/2/

extraction données web via python [Python 2.X]

Python

Vue hybride

Discussions similaires

Partager

Partager