IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

extraction données web via python [Python 2.X]


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut extraction données web via python
    Bonjour à tous,

    je débute en Python et je souhaite extraire d'un site internet à URL changeant, des données (en l'occurrence, des titres d'articles) .
    Quand je dis que l'URL change, c'est que des articles sont sur la page 1, la suite sur la page 2 etc et donc que l'URL se modifie en conséquence .

    J'ai donc codé le script ci dessous . Celui ci fonctionne mais uniquement pour une page . Visiblement la boucle ne fonctionne pas ou bien l'erreur est ailleurs

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    --------------------------------------------------------------
    import requests
    from bs4 import BeautifulSoup as bs
     
    URL = "https://www.medincell.com/fr/2022/page/"
     
    for pages in range(0,2):
     
     req = requests.get(URL + str(pages) + '/')
     soup = bs(req.text, 'html.parser')
     
    class_name= "read_more"
     
    titles = soup.find_all('p',class_=class_name)
    titles
     
    -------------------------------------------
    merci pour votre aide !

    Matthieu

  2. #2
    Invité
    Invité(e)
    Par défaut
    Salut !

    Merci d'utiliser la balise [code] ! Bouton #

    for pages in range(0,2): donne 0 et 1, c'est ce que tu veux ? Ou 1 et 2 ?

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Salut LeNarvalo !

    en fait sur ce que je souhaite extraire, il y a 3 pages . Par défaut j'avais mis donc range (1,3) mais ça ne fonctionne pas non plus . J'ai donc mis (0,2) (comme le 0 compte on arrive à 3 mais bon echec la aussi )

  4. #4
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour

    Je me suis inspiré du site web:
    https://proxyway.com/knowledge-base/...-beautifulsoup

    Attention: c'est du Python 3.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    #!/usr/bin/python
    # -*- coding: utf-8 -*-
     
    from bs4 import BeautifulSoup
    import requests
     
    start_url = "https://www.medincell.com/fr/2022"
     
    def get_data(content):
        #...
        # ici extraction des données cherchées
        #...
        pass
     
    def scrape_page(url):
        print ("URL: " + url)
        r = requests.get(url)
        soup = BeautifulSoup(r.content, "html.parser")
        get_data(soup)
     
        next_page_link = soup.find("a", class_="next")
        if next_page_link is not None:
            href = next_page_link.get("href")
            scrape_page(href)
        else:
            print ("Done")
     
    if __name__ == "__main__":
        scrape_page(start_url)
    Ce code retrouve bien les 4 pages de l'adresse "https://www.medincell.com/fr/2022", mais pas avec la terminaison "/page".

    Il ne reste plus qu'à ajouter l'extraction des données dans la fonction "get_data(content)".

  5. #5
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Bonjour Tyrtamos

    Merci de t'être penché sur mon problème !

    Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)

    Un grand merci

  6. #6
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par Matthieu221 Voir le message
    Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)
    Compte tenu de tes questions, tu as besoin d'un bon cours de formation en Python. Je vais te donner un coup de pouce, mais je n'ai aucune chance de le remplacer!

    Qu'est-ce que c'est qu'une fonction? C'est une nouvelle instruction du langage crée à l'exécution.
    Exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    def test(x, y):
        print(x*y)
     
    test(2, 3)
    6 # <= réponse
    Pourquoi on atteint toutes les pages sans qu'il y ait une boucle? Parce que la fonction s'appelle elle-même (on dit qu'elle est "récursive"). Voir le code à la ligne 24. Et les appels s'arrêtent quand la condition prévue est atteinte, ici: next_page_link == None. Alors, la fonction s'arrête après avoir affiché "Done".

    Que mettre dans la fonction data_content? Ce que tu as déjà mis dans ton petit code:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    def get_data(content):
        # ici extraction des données cherchées
     
        class_name= "read_more"
     
        titles = content.find_all('p',class_=class_name)
        print(titles)
    Ce qui donne:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    URL: https://www.medincell.com/fr/2022
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/09/14/medincell-signe-un-accord-de-licence-avec-le-medicines-patent-pool-pour-lutter-contre-la-transmission-du-paludisme-dans-le-cadre-de-son-engagement-pour-la-sante-dans-le-monde/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/13/medincell-annonce-les-resultats-de-son-assemblee-generale-ordinaire-annuelle-et-extraordinaire-du-8-septembre-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/05/medincell-obtient-un-financement-supplementaire-de-20-millions-deuros-aupres-de-la-banque-europeenne-dinvestissement-bei/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/29/lancement-dune-etude-de-phase-3-pour-le-deuxieme-antipsychotique-injectable-a-action-prolongee-utilisant-la-technologie-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/17/medincell-societe-a-impact-engagee-dans-lamelioration-de-la-sante-des-patients-dans-le-monde-publie-son-rapport-annuel-rse-2021-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/08/modalites-de-participation-a-lassemblee-generale-mixte-des-actionnaires-2/">Lire le communiqué</a></p>]
    URL: https://www.medincell.com/fr/2022/page/2/
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/07/29/medincell-met-a-disposition-son-document-denregistrement-universel-2021-2022-incluant-le-rapport-financier-annuel/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/07/28/le-partenaire-de-medincell-teva-confirme-attendre-lapprobation-et-la-commercialisation-aux-etats-unis-de-mdc-irm-tev46000-au-premier-semestre-2023/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/14/medincell-publie-ses-resultats-financiers-annuels-consolides/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/07/videoconference-et-publication-des-resultats-financiers-de-lexercice-2021-2022-le-14-juin-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/09/dr-richard-malamut-specialiste-du-developpement-pharmaceutique-aux-etats-unis-devient-directeur-medical-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/03/teva-partenaire-de-medincell-apporte-des-informations-supplementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>]
    URL: https://www.medincell.com/fr/2022/page/3/
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/04/20/medincell-fournit-des-informations-complementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/19/teva-et-medincell-ont-recu-une-lettre-de-reponse-complete-pour-tv-46000-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/08/medincell-christophe-douat-president-du-directoire-repondra-en-direct-aux-investisseurs-sur-boursorama-com-jeudi-21-avril-a-18h00/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/03/28/medincell-inclusion-des-premiers-participants-dans-letude-de-prophylaxie-du-covid-19-saive/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/01/14/publication-du-calendrier-financier-2022/">Lire le communiqué</a></p>]
    Done
    A noter qu'il n'y a plus que 3 pages effectivement.

    Si tu veux plus d'infos sur beautifulsoup pour faire un meilleurs découpage, je laisse quelqu'un d'autre répondre, parce que je suis loin d'en être familier. Et il y a une belle doc:
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    Pour un bon cours de formation, il y en a beaucoup:
    https://python.developpez.com/cours/
    Voir en particulier celui de Gérard Swinnen, qui doit exister encore sous Python 2 (version obsolète !)

    Il y a aussi une belle documentation Python en ligne (en français!):
    Python 3 => https://docs.python.org/fr/3/
    Python 2 => https://docs.python.org/fr/2/

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraction données web fonction XpathSApply
    Par charlotte77 dans le forum R
    Réponses: 4
    Dernier message: 18/03/2013, 17h31
  2. Interaction avec une base de données MySQL via python
    Par ismaeldndaw dans le forum Général Python
    Réponses: 2
    Dernier message: 01/09/2012, 15h45
  3. VBA code extraction donnée web sans requête donné externe
    Par PowerTrader dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 31/01/2012, 08h52
  4. probleme d'identification sur site web via python
    Par KINENVEU dans le forum Réseau/Web
    Réponses: 16
    Dernier message: 11/08/2009, 15h06
  5. [XL-2007] extraction données internet via vba
    Par aviateur22 dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 21/06/2009, 16h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo