IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Extraire code source page web


Sujet :

Réseau/Web Python

  1. #1
    Membre éprouvé
    Homme Profil pro
    Inscrit en
    Décembre 2007
    Messages
    758
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Décembre 2007
    Messages : 758
    Points : 970
    Points
    970
    Par défaut Extraire code source page web
    Bonjour à tous,

    Je souhaite acquérir des informations depuis une page web. Lorsque j'utilise la fonction "Affichage>Code source de la page" de firefox c'est une fichier xml qui apparait.

    Lorsque je "récupère" cette page web avec urllib:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    import urllib
    f = urllib.urlopen("http://blabla.fr/")
    lines=f.readlines()
    f.close()
    f=open('out.html','w')
    for line in lines:
    	f.write(line)
    f.close()
    J'obtiens une page en xhtml qui correspond au xml mise en forme via une feuille de style je suppose.

    Bien entendu, je pourrai parser cette page html mais elle est franchement moins sympathique à traiter que le code xml qui apparait avec Firefox.

    Quelqu'un sait comment je pourrais avoir dans mon objet f le code xml de la page avant mise en forme ?

    D'avance merci

  2. #2
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    En modifiant le user-agent?
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  3. #3
    Membre éprouvé
    Homme Profil pro
    Inscrit en
    Décembre 2007
    Messages
    758
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Décembre 2007
    Messages : 758
    Points : 970
    Points
    970
    Par défaut
    merci pour la réponse,

    je connais pas (du tout) les technos web et je ne savais pas ce qu'était un user-agent avant que tu en parles .

    bref j'essaie de creuser mais je trouve surtout des références à des gens qui font ça en php ou en java. peuvent pas faire du python comme tout le monde ?

    trêve de plaisanterie, si je trouve quelque chose, je reviens poster .

  4. #4
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Février 2007
    Messages
    41
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 41
    Points : 25
    Points
    25
    Par défaut
    ben je suis un peu dans la même impasse que toi, à la différence près que mes données ne sont pas dans le fichier que je récupère... et Dieu sait qu'au point où j'en suis, je préfèrerais parser un fichier html où seraient ces données...

    Allez tiens moi (nous) au courant

  5. #5
    Membre à l'essai
    Profil pro
    Inscrit en
    Novembre 2008
    Messages
    16
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2008
    Messages : 16
    Points : 19
    Points
    19
    Par défaut
    Je pense qu'il vous manque un header accept
    Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
    à utilser avec un objet Request pour pouvoir etre passe a urllib2

Discussions similaires

  1. Extraire code source page web
    Par kev85270 dans le forum Réseau/Web
    Réponses: 2
    Dernier message: 24/01/2013, 10h23
  2. Recupérer code source page web
    Par ddsjm dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 19/03/2008, 21h54
  3. récupérer code source page HTML
    Par gianni17 dans le forum AWT/Swing
    Réponses: 3
    Dernier message: 02/07/2007, 15h47
  4. winsock source page web différente
    Par PoZZyX dans le forum Windows
    Réponses: 5
    Dernier message: 24/05/2007, 12h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo