IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Web Scraping via R


Sujet :

R

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2015
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2015
    Messages : 3
    Points : 4
    Points
    4
    Par défaut Web Scraping via R
    Hello,


    Je suis étudiant et j'essaie d'utiliser la libraire "rvest" de R pour récupérer des cotations boursières directement depuis le site Internet d'Euronext.
    Le problème c'est que R ne semble pas récupérer toutes les données lorsque j'enregistre la page dans une variable en utilisant la méthode "html([URL de la page à récupérer])" ...

    Sur le site d'Euronext, les cotations sont regroupées dans un tableau (tbody) et je pense que chaque ligne (tr) est ajoutée via javascript ; exemple avec les cours du CAC : https://www.euronext.com/en/products...003500008-XPAR.
    Seulement quand je récupère la page sur R, je n'ai plus que le tbody sans les tr donc il est totalement vide...

    J'aurais d'abord aimé savoir si c'est la bonne méthode pour récupérer des données de manière dynamique avec R. Mon objectif est d'avoir à ma disposition des données actualisées et utilisables. Est-ce qu'il y aurait par exemple des librairies plus appropriées pour ce que je cherche à faire ?


    Merci d'avance pour vos réponses !

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    J'aurais d'abord aimé savoir si c'est la bonne méthode pour récupérer des données de manière dynamique avec R
    C'est un outil de base qui permet un certain nombre de choses. Mais avec le même constat que toi, il ne doit pas gérer le JavaScript.

    Mon objectif est d'avoir à ma disposition des données actualisées et utilisables. Est-ce qu'il y aurait par exemple des librairies plus appropriées pour ce que je cherche à faire
    Je ne suis pas sur que tu trouves ton bonheur avec R pour des réponses pour des problèmes de ce type qui me semble assez évolué.
    Je te recommanderais de passer par d'autre langage. Personnellement, pour ce type de problème, j’utilise Python et Scrapy, dont il faut ajouter un module pour l'exécution du JavaScrpit.

    Je ne suis pas non plus un grand spécialiste de la question et peut-être que d'autres me contrediront et dt'en dirons plus.

  3. #3
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Il faut que tu interprètes le javascript. Je ne sais pas s'il existe un package pour le faire facilement en R mais tu peux toujours utiliser un programme externe et l'appeler en ligne de commande avec R. J'ai entendu parler de phantomJS pour ce genre de choses (jamais utilisé mais en regardant la doc ça m'a pas l'air très compliqué).

  4. #4
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2015
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2015
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    @dev_ggy
    Oui j'avais déjà pensé à Python pour ce genre d'extract. Mais la raison pour laquelle j'aimerais faire ça avec R c'est que je peux utiliser directement ces données pour faire mes études statistiques. Certes en soi ça ne change pas grand chose, puisqu'une fois que j'ai mon fichier de données "propre" je peux très bien le charger sur R.
    En revanche je ne connaissais pas Scrapy, je vais essayer de me renseigner là-dessus .

    @Theta
    Effectivement j'ai trouvé un post sur DataCamp (site dédié à R) où ils parlaient de phantomJS. Je n'ai pas encore regardé ce que c'était mais si j'ai bien compris cela permet d'obtenir un code HTML où tout le javascript a été interprété. Donc en exécutant mon code sur R j'aurai bien toutes mes données dans le tbody. Je vais essayer dès que possible.

    Merci en tout cas pour vos réponses

  5. #5
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Septembre 2015
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Septembre 2015
    Messages : 3
    Points : 4
    Points
    4
    Par défaut
    J'ai essayé avec phantomJS et ça ne fonctionne pas... Le tbody qui devrait contenir les cotations est toujours vide donc je ne pense pas qu'il s'agisse d'un problème de Javascript.

    D'autres idées ?

Discussions similaires

  1. Parser les liens d'une page web telechargée via le PC client
    Par redvivi dans le forum ActionScript 3
    Réponses: 1
    Dernier message: 13/08/2008, 12h21
  2. Récupérer une page Web distante via Post
    Par Mike Reason dans le forum Langage
    Réponses: 1
    Dernier message: 06/06/2008, 09h22
  3. Appel d'un Web services via excel.
    Par killysui dans le forum Macros et VBA Excel
    Réponses: 7
    Dernier message: 18/02/2008, 14h30
  4. Réponses: 6
    Dernier message: 04/07/2005, 11h32
  5. [Mandrake 10 + win XP] Acces Serveur web linux via XP
    Par bobunny dans le forum Windows XP
    Réponses: 9
    Dernier message: 10/09/2004, 15h15

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo