IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Ruby on Rails Discussion :

extraire des données d'une ou plusieurs pages web


Sujet :

Ruby on Rails

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Novembre 2008
    Messages
    107
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2008
    Messages : 107
    Points : 92
    Points
    92
    Par défaut extraire des données d'une ou plusieurs pages web
    bonjour à tous

    problème :
    je prends un site un peu compliqué : le PMU
    Des tas d'informations sont visibles sur ce site, comment les récupérer ?
    Il y a aussi des pages différentes qui affichent des données complémentaires.
    et des résultats, comment faire ?

    idée : si pour une page donnée je pouvais déclencher une action (de récupération) qui m'envoie certaines données dans un csv, je serais
    déjà content.

    question :
    ce n'est peut-être pas le bon forum, mais quand même avec RoR
    on devrait pouvoir arriver à faire quelque chose .. ..
    mais comment ?

  2. #2
    Membre régulier
    Profil pro
    Inscrit en
    Mai 2003
    Messages
    127
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Mai 2003
    Messages : 127
    Points : 124
    Points
    124
    Par défaut
    Salut,

    Il faut écrire toi même un petit script qui ouvre la page souhaitée et récupère le contenu qui t'intéresse.

    Tu peux pour cela utiliser hpricot : http://github.com/whymirror/hpricot/tree/master
    Ou encore ScrAPI : http://railscasts.com/episodes/173-s...ng-with-scrapi

    A+
    Mon blog sur Ruby on Rails : 2dconcept

  3. #3
    Membre éclairé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Points : 652
    Points
    652
    Par défaut
    Tu peux l'écrire à la main, c'est pas la mort non plus.
    Un script en Ruby (rien à voir avec Ror), qui se connecte à l'url, récupère la page, et puis pour chaque ligne tu fais une regex pour tester si elle contient le motif que tu cherches, et si oui, beh une autre regex pour récupérer exactement la portion que tu veux...

    Si tu dois le faire souvent, et que ça soit fiable, alors tu peux appeler la cavalerie dont parle Mookie

  4. #4
    Futur Membre du Club
    Profil pro
    Inscrit en
    Octobre 2007
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2007
    Messages : 9
    Points : 6
    Points
    6
    Par défaut
    salut,
    hpricot est très bien pour parser du html, c'est un jeu d'enfant

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 5
    Points : 6
    Points
    6
    Par défaut
    Citation Envoyé par duboisa Voir le message
    je prends un site un peu compliqué : le PMU
    Des tas d'informations sont visibles sur ce site, comment les récupérer ?
    Il y a aussi des pages différentes qui affichent des données complémentaires.
    et des résultats, comment faire ?
    Je te recommande chaudement d'utiliser Hpricot (ou un équivalent, comme Nokogiri) plutôt que d'utiliser des regexps, car je trouve ça plus facile à maintenir et à mettre au point (je me sers beaucoup de Hpricot sur mon aggrégateur de screencasts ruby/rails (Learnivore), ça m'a bien aidé).

    Attention à un point: si ton projet prend de l'importance, tu risques d'être embêté par PMU (déjà vu sur un projet allociné par quelqu'un que je connais)

    Thibaut
    --
    http://blog.logeek.fr
    http://www.learnivore.com

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraire des données d'une même cellule, dans plusieurs fichiers
    Par chicanne dans le forum Macros et VBA Excel
    Réponses: 15
    Dernier message: 31/07/2016, 12h06
  2. [WD11] extraire des données d une page internet
    Par cdevl32 dans le forum WinDev
    Réponses: 2
    Dernier message: 24/08/2007, 20h23
  3. [DOM] extraire des données d'une page xhtml
    Par Louis-Guillaume Morand dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 06/06/2007, 00h36
  4. [RegEx] Comment extraire des données d'une page HTML ?
    Par taliesin26 dans le forum Langage
    Réponses: 1
    Dernier message: 11/12/2006, 12h39
  5. [Système] Extraire des données d'une page web
    Par nazoreen dans le forum Langage
    Réponses: 17
    Dernier message: 22/03/2006, 21h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo