IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Web Scraping - BeautifulSoup [Python 3.X]


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Mai 2018
    Messages
    47
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Chef de projet en SSII
    Secteur : Industrie

    Informations forums :
    Inscription : Mai 2018
    Messages : 47
    Par défaut Web Scraping - BeautifulSoup
    Bonjour,

    J'essaye de récupérer l'intitulé des offres d'emploi de la page 1

    Pour m'initier au web scraping, j'ai suivi: https://www.dataquest.io/blog/web-sc...-beautifulsoup

    Dans le code suivant, je demande à chercher dans les div toutes les class nommé "row flex-center" . J'essaye aussi "offre ng-scope" qui est dans l'intitulé parent. En PJ l'imprim écran du moment ou j'inspecte la page web.

    On retrouve bien row flex-center à chaque nouvelle offre.

    Pourtant je ne retrouve pas une liste de 20 (car 20 offres sur la page).

    Ou est mon erreur ? (Après l'idée est de parcourir chaque élément et de faire du find ou find_all pour isoler postes et nom d'entreprise)
    Si possible, pouvez vous m'indiquer la class à utiliser si ce n'est pas la bonne ?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    from requests import get
    from bs4 import BeautifulSoup
     
    url = 'XXXX'
    response = get(url)
    html_soup = BeautifulSoup(response.text, 'html.parser')
     
    postes = html_soup.find_all('div', class_="row flex-center")
    Merci

    Cordialement

    Kaz
    Images attachées Images attachées  

  2. #2
    Membre averti
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Mai 2018
    Messages
    47
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Chef de projet en SSII
    Secteur : Industrie

    Informations forums :
    Inscription : Mai 2018
    Messages : 47
    Par défaut
    J'ai creusé la questions encore :

    en faisant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    html_soup.find_all('div', class_='row flex-center')
    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <a bo-href="ro.goToDetailsOffre(offre,$index)" target="_self">
     <span bo-text="offre.intitule">{{offre.intitule}}</span>
     </a>

    En examinant la page web :

    Nom : page.png
Affichages : 247
Taille : 7,0 Ko

    Pourquoi je ne retrouve pas l'offre telle qu'elle est écrite ?

    Sur Indeed et sur IMB, on retrouve bien le nom des offres et des films après avoir importé le tout.

  3. #3
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Salut,

    Citation Envoyé par Kazvert Voir le message
    Pourquoi je ne retrouve pas l'offre telle qu'elle est écrite ?
    Parce qu'elle n'y est pas: prenez response.text, sauvegardez le dans un fichier puis ouvrez le avec un éditeur de texte ou un navigateur.
    En fait, ce que vous cherchez sera chargé par du Javascript qui n'est pas exécuté via un simple .get mais par le navigateur Web.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  4. #4
    Membre averti
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Mai 2018
    Messages
    47
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Chef de projet en SSII
    Secteur : Industrie

    Informations forums :
    Inscription : Mai 2018
    Messages : 47
    Par défaut
    Bonjour,

    Merci pour le retour, je vais utiliser Selenium !

    Bonne soirée

    Kaz

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraire les données selon la méthode du web scraping
    Par sarra216 dans le forum Général Python
    Réponses: 7
    Dernier message: 09/10/2018, 10h10
  2. Réponses: 0
    Dernier message: 29/06/2018, 08h06
  3. [Python 3.X] web scraping simple sans block parent
    Par markham dans le forum Réseau/Web
    Réponses: 4
    Dernier message: 06/06/2017, 21h26
  4. Web parsing et web scraping
    Par langlois13 dans le forum Réseau/Web
    Réponses: 5
    Dernier message: 10/01/2016, 18h05
  5. Web Scraping via R
    Par BlackSheitan dans le forum R
    Réponses: 4
    Dernier message: 25/09/2015, 10h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo