IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

extraction données web via python [Python 2.X]


Sujet :

Python

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut extraction données web via python
    Bonjour à tous,

    je débute en Python et je souhaite extraire d'un site internet à URL changeant, des données (en l'occurrence, des titres d'articles) .
    Quand je dis que l'URL change, c'est que des articles sont sur la page 1, la suite sur la page 2 etc et donc que l'URL se modifie en conséquence .

    J'ai donc codé le script ci dessous . Celui ci fonctionne mais uniquement pour une page . Visiblement la boucle ne fonctionne pas ou bien l'erreur est ailleurs

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    --------------------------------------------------------------
    import requests
    from bs4 import BeautifulSoup as bs
     
    URL = "https://www.medincell.com/fr/2022/page/"
     
    for pages in range(0,2):
     
     req = requests.get(URL + str(pages) + '/')
     soup = bs(req.text, 'html.parser')
     
    class_name= "read_more"
     
    titles = soup.find_all('p',class_=class_name)
    titles
     
    -------------------------------------------
    merci pour votre aide !

    Matthieu

  2. #2
    Invité
    Invité(e)
    Par défaut
    Salut !

    Merci d'utiliser la balise [code] ! Bouton #

    for pages in range(0,2): donne 0 et 1, c'est ce que tu veux ? Ou 1 et 2 ?

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Salut LeNarvalo !

    en fait sur ce que je souhaite extraire, il y a 3 pages . Par défaut j'avais mis donc range (1,3) mais ça ne fonctionne pas non plus . J'ai donc mis (0,2) (comme le 0 compte on arrive à 3 mais bon echec la aussi )

  4. #4
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour

    Je me suis inspiré du site web:
    https://proxyway.com/knowledge-base/...-beautifulsoup

    Attention: c'est du Python 3.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    #!/usr/bin/python
    # -*- coding: utf-8 -*-
     
    from bs4 import BeautifulSoup
    import requests
     
    start_url = "https://www.medincell.com/fr/2022"
     
    def get_data(content):
        #...
        # ici extraction des données cherchées
        #...
        pass
     
    def scrape_page(url):
        print ("URL: " + url)
        r = requests.get(url)
        soup = BeautifulSoup(r.content, "html.parser")
        get_data(soup)
     
        next_page_link = soup.find("a", class_="next")
        if next_page_link is not None:
            href = next_page_link.get("href")
            scrape_page(href)
        else:
            print ("Done")
     
    if __name__ == "__main__":
        scrape_page(start_url)
    Ce code retrouve bien les 4 pages de l'adresse "https://www.medincell.com/fr/2022", mais pas avec la terminaison "/page".

    Il ne reste plus qu'à ajouter l'extraction des données dans la fonction "get_data(content)".

  5. #5
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Bonjour Tyrtamos

    Merci de t'être penché sur mon problème !

    Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)

    Un grand merci

  6. #6
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par Matthieu221 Voir le message
    Par contre je n'ai pas ton niveau et je veux bien que tu m'expliques ton code . Je vois que tu passes par des fonctions , qu'il n'y a pas de boucle non plus pour changer de page . J'ai un peu de mal à cerner qui fait quoi mais surtout comment . Du coup je ne sais pas quoi mettre et surtout sous quelle forme, dans la partie get_data(content)
    Compte tenu de tes questions, tu as besoin d'un bon cours de formation en Python. Je vais te donner un coup de pouce, mais je n'ai aucune chance de le remplacer!

    Qu'est-ce que c'est qu'une fonction? C'est une nouvelle instruction du langage crée à l'exécution.
    Exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    def test(x, y):
        print(x*y)
     
    test(2, 3)
    6 # <= réponse
    Pourquoi on atteint toutes les pages sans qu'il y ait une boucle? Parce que la fonction s'appelle elle-même (on dit qu'elle est "récursive"). Voir le code à la ligne 24. Et les appels s'arrêtent quand la condition prévue est atteinte, ici: next_page_link == None. Alors, la fonction s'arrête après avoir affiché "Done".

    Que mettre dans la fonction data_content? Ce que tu as déjà mis dans ton petit code:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    def get_data(content):
        # ici extraction des données cherchées
     
        class_name= "read_more"
     
        titles = content.find_all('p',class_=class_name)
        print(titles)
    Ce qui donne:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    URL: https://www.medincell.com/fr/2022
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/09/14/medincell-signe-un-accord-de-licence-avec-le-medicines-patent-pool-pour-lutter-contre-la-transmission-du-paludisme-dans-le-cadre-de-son-engagement-pour-la-sante-dans-le-monde/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/13/medincell-annonce-les-resultats-de-son-assemblee-generale-ordinaire-annuelle-et-extraordinaire-du-8-septembre-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/09/05/medincell-obtient-un-financement-supplementaire-de-20-millions-deuros-aupres-de-la-banque-europeenne-dinvestissement-bei/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/29/lancement-dune-etude-de-phase-3-pour-le-deuxieme-antipsychotique-injectable-a-action-prolongee-utilisant-la-technologie-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/17/medincell-societe-a-impact-engagee-dans-lamelioration-de-la-sante-des-patients-dans-le-monde-publie-son-rapport-annuel-rse-2021-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/08/08/modalites-de-participation-a-lassemblee-generale-mixte-des-actionnaires-2/">Lire le communiqué</a></p>]
    URL: https://www.medincell.com/fr/2022/page/2/
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/07/29/medincell-met-a-disposition-son-document-denregistrement-universel-2021-2022-incluant-le-rapport-financier-annuel/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/07/28/le-partenaire-de-medincell-teva-confirme-attendre-lapprobation-et-la-commercialisation-aux-etats-unis-de-mdc-irm-tev46000-au-premier-semestre-2023/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/14/medincell-publie-ses-resultats-financiers-annuels-consolides/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/06/07/videoconference-et-publication-des-resultats-financiers-de-lexercice-2021-2022-le-14-juin-2022/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/09/dr-richard-malamut-specialiste-du-developpement-pharmaceutique-aux-etats-unis-devient-directeur-medical-de-medincell/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/05/03/teva-partenaire-de-medincell-apporte-des-informations-supplementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>]
    URL: https://www.medincell.com/fr/2022/page/3/
    [<p class="read_more"><a href="https://www.medincell.com/fr/2022/04/20/medincell-fournit-des-informations-complementaires-au-sujet-de-la-demande-dapprobation-de-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/19/teva-et-medincell-ont-recu-une-lettre-de-reponse-complete-pour-tv-46000-mdc-irm/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/04/08/medincell-christophe-douat-president-du-directoire-repondra-en-direct-aux-investisseurs-sur-boursorama-com-jeudi-21-avril-a-18h00/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/03/28/medincell-inclusion-des-premiers-participants-dans-letude-de-prophylaxie-du-covid-19-saive/">Lire le communiqué</a></p>, <p class="read_more"><a href="https://www.medincell.com/fr/2022/01/14/publication-du-calendrier-financier-2022/">Lire le communiqué</a></p>]
    Done
    A noter qu'il n'y a plus que 3 pages effectivement.

    Si tu veux plus d'infos sur beautifulsoup pour faire un meilleurs découpage, je laisse quelqu'un d'autre répondre, parce que je suis loin d'en être familier. Et il y a une belle doc:
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    Pour un bon cours de formation, il y en a beaucoup:
    https://python.developpez.com/cours/
    Voir en particulier celui de Gérard Swinnen, qui doit exister encore sous Python 2 (version obsolète !)

    Il y a aussi une belle documentation Python en ligne (en français!):
    Python 3 => https://docs.python.org/fr/3/
    Python 2 => https://docs.python.org/fr/2/

  7. #7
    Expert confirmé
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    4 207
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 4 207
    Par défaut
    Hello,
    pour extraire seulement la date et le titre des articles tu peux utiliser ce code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    def get_data(content):
        for article in content.select('article'):
            print(article.select_one('.date').text)
            print(article.select_one('a').text)
            print("********************************")
    Explication :
    on balaie toutes les balises article et pour chaque on affiche le texte entre les balises de classe date et le texte entre les balises a.
    on obtient ce genre de résultat :
    28 mars 2022
    MedinCell : inclusion des premiers participants dans l’étude de prophylaxie du Covid-19, SAIVE
    ********************************
    Pour comprendre la syntaxe des select, on peut par exemple aller voir sur cette page et chercher css selectors

    Ami calmant, J.P

  8. #8
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Bonjour Tyrtamos et Jurrasik pork

    désolé pour ma réponse tardive . Je voulais vous remercier pour votre aide ! cela fonctionne . Pour le moment ça me dépasse un peu car je ne comprends pas pourquoi ce que j'avais fait ne fonctionne pas .
    je vais cravacher !

    Merci à vous !

  9. #9
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 830
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 830
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Matthieu221 Voir le message
    Citation Envoyé par Matthieu221 Voir le message
    Quand je dis que l'URL change, c'est que des articles sont sur la page 1, la suite sur la page 2 etc et donc que l'URL se modifie en conséquence .
    Pour le moment ça me dépasse un peu car je ne comprends pas pourquoi ce que j'avais fait ne fonctionne pas .
    tyrtamos te le montre: tu parles de "page 1" et "page 2" mais lui il voit "https://www.medincell.com/fr/2022", "https://www.medincell.com/fr/2022/page/2" et "https://www.medincell.com/fr/2022/page/3" ce qui ne correspond absolument pas à ta description.
    Et comme l'a dit LeNarvalo, faire une boucle sur "0, 1" là non plus ne colle pas avec "1, 2".
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  10. #10
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Bonjour Sver

    Oui tout à fait mais même si on fait la correction ça ne marche pas non plus (c'est ça qui me dépasse) . il ne me ressort qu'une page .

    merci

  11. #11
    Membre averti
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Février 2016
    Messages
    20
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur

    Informations forums :
    Inscription : Février 2016
    Messages : 20
    Par défaut
    Citation Envoyé par Matthieu221 Voir le message
    Bonjour Sver

    Oui tout à fait mais même si on fait la correction ça ne marche pas non plus (c'est ça qui me dépasse) . il ne me ressort qu'une page .

    merci
    Salut,

    Les lignes 12 à 15 doivent être à l'intérieur de la boucle, pour un meilleur résultat.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    --------------------------------------------------------------
    import requests
    from bs4 import BeautifulSoup as bs
     
    URL = "https://www.medincell.com/fr/2022/page/"
     
    for pages in range(0,2):
     
     req = requests.get(URL + str(pages) + '/')
     soup = bs(req.text, 'html.parser')
     
    class_name= "read_more"
     
    titles = soup.find_all('p',class_=class_name)
    titles
     
    -------------------------------------------
    Un autre exemple assez proche de ton code d'origine:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    import requests
    from bs4 import BeautifulSoup
     
    url = "https://www.medincell.com/fr/2022/page/"
     
    for pages in range(1, 4):
        r = requests.get(url + str(pages) + '/')
        print(url + str(pages) + '/')
        soup = BeautifulSoup(r.content, "html.parser")
        for article in soup.select('article'):
            print(article.select_one('a').text)

  12. #12
    Nouveau membre du Club
    Homme Profil pro
    risk manager
    Inscrit en
    Octobre 2022
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : risk manager
    Secteur : Finance

    Informations forums :
    Inscription : Octobre 2022
    Messages : 6
    Par défaut
    Bonjour Jayceone !

    Merci beaucoup pour ta réponse !j'ai bien fait en sorte que les lignes 12 à 15 soient dans la boucle mais cela n'a pas fonctionné non plus (toujours une seule page qui ressort ). Et cela peu importe le range (je précise)

    Merci pour ton code !

    Matthieu

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraction données web fonction XpathSApply
    Par charlotte77 dans le forum R
    Réponses: 4
    Dernier message: 18/03/2013, 17h31
  2. Interaction avec une base de données MySQL via python
    Par ismaeldndaw dans le forum Général Python
    Réponses: 2
    Dernier message: 01/09/2012, 15h45
  3. VBA code extraction donnée web sans requête donné externe
    Par PowerTrader dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 31/01/2012, 08h52
  4. probleme d'identification sur site web via python
    Par KINENVEU dans le forum Réseau/Web
    Réponses: 16
    Dernier message: 11/08/2009, 15h06
  5. [XL-2007] extraction données internet via vba
    Par aviateur22 dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 21/06/2009, 16h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo