IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Problème de recherche des éléments d'une table <appli de webscraping>


Sujet :

Python

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Consultant finance des marchés
    Inscrit en
    Décembre 2018
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Consultant finance des marchés

    Informations forums :
    Inscription : Décembre 2018
    Messages : 30
    Points : 27
    Points
    27
    Par défaut Problème de recherche des éléments d'une table <appli de webscraping>
    Bonjour,

    Vers la ligne 39, la fonction xpath ne trouve apparemment rien avec l'argument '//table' et l'indice 0 de table[0] est donc "out of range" pouvez vous m'apporter une solution.
    L'objectif est de récupérer un historique de prix à partir d'une table sur yahoo finance.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
      # table = element_html.xpath('//table')
       #  print(table)
        # table_tree = lxml.etree.tostring(table[0], method='xml')
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    from datetime import datetime, timedelta 
    import time
    import requests, pandas, lxml
    from lxml import html
    def format_date(date_datetime):
         date_timetuple = date_datetime.timetuple()
         date_mktime = time.mktime(date_timetuple)
         date_int = int(date_mktime)
         date_str = str(date_int)
         return date_str
    def subdomain(symbol, start, end, filter='history'):
         subdoma="/quote/{0}/history?period1={1}&period2={2}&interval=1d&filter={3}&frequency=1d"
         subdomain = subdoma.format(symbol, start, end, filter)
         return subdomain
     
    def header_function(subdomain):
         hdrs =  {"authority": "finance.yahoo.com",
                  "method": "GET",
                  "path": subdomain,
                  "scheme": "https",
                  "accept": "text/html",
                  "accept-encoding": "gzip, deflate, br",
                  "accept-language": "en-US,en;q=0.9",
                  "cache-control": "no-cache",
                  "cookie": "Cookie:identifier",
                  "dnt": "1",
                  "pragma": "no-cache",
                  "sec-fetch-mode": "navigate",
                  "sec-fetch-site": "same-origin",
                  "sec-fetch-user": "?1",
                  "upgrade-insecure-requests": "1",
                  "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"}
     
         return hdrs
    def scrape_page(url, header):
         page = requests.get(url, headers=header)
         element_html = html.fromstring(page.content)
         table = element_html.xpath('//table')
         print(table)
         table_tree = lxml.etree.tostring(table[0], method='xml')
         panda = pandas.read_html(table_tree)
         return panda
    if __name__ == '__main__':
         symbol = 'BB'
     
         dt_start = datetime.today() - timedelta(days=365)
         dt_end = datetime.today()
     
         start = format_date(dt_start)
         end = format_date(dt_end)
     
         sub = subdomain(symbol, start, end)
         header = header_function(sub)
         print(header)
         base_url = 'https://finance.yahoo.com'
         url = base_url + sub
         print(url)
         price_history = scrape_page(url, header)

    Merci pour votre aide!

  2. #2
    Expert éminent
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    3 951
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 3 951
    Points : 9 280
    Points
    9 280
    Par défaut
    hello,
    le souci c'est que lorsqu'on fait une requête sur ton url avec requests on tombe sur ceci :

    Nom : Capture_yahoo_finance.PNG
Affichages : 84
Taille : 112,0 Ko

    et donc pour avoir la page où il y a la table, il faudrait cliquer sur accepter et recharger la page. Il faudrait gérer les cookies avec requests pour les réinjecter pour ne plus avoir cette page. Moi je ne sais pas faire. Sinon on peut utiliser selenium.

    Ami calmant, J.P
    Jurassic computer : Sinclair ZX81 - Zilog Z80A à 3,25 MHz - RAM 1 Ko - ROM 8 Ko

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    Consultant finance des marchés
    Inscrit en
    Décembre 2018
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Consultant finance des marchés

    Informations forums :
    Inscription : Décembre 2018
    Messages : 30
    Points : 27
    Points
    27
    Par défaut PB Résolu en utilisant BeautifulSoup
    PB Résolu en utilisant BeautifulSoup

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [ODS] [RTF] problèmes sur l'affichage des éléments pour une "table of contents"
    Par Gillou6772 dans le forum ODS et reporting
    Réponses: 0
    Dernier message: 28/02/2017, 16h28
  2. Problème de recherche des éléments dans une liste.
    Par amine1980 dans le forum Débuter avec Java
    Réponses: 7
    Dernier message: 09/04/2011, 23h34
  3. Réponses: 10
    Dernier message: 11/03/2009, 17h30
  4. probléme d'insertion des variables dans une table
    Par moooona dans le forum Installation
    Réponses: 2
    Dernier message: 30/03/2008, 14h08
  5. Ranger des éléments d'une table
    Par SOPSOU dans le forum Bases de données
    Réponses: 0
    Dernier message: 08/10/2007, 15h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo