Bonjour à tous,
Je souhaite acquérir des informations depuis une page web. Lorsque j'utilise la fonction "Affichage>Code source de la page" de firefox c'est une fichier xml qui apparait.
Lorsque je "récupère" cette page web avec urllib:
J'obtiens une page en xhtml qui correspond au xml mise en forme via une feuille de style je suppose.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 import urllib f = urllib.urlopen("http://blabla.fr/") lines=f.readlines() f.close() f=open('out.html','w') for line in lines: f.write(line) f.close()
Bien entendu, je pourrai parser cette page html mais elle est franchement moins sympathique à traiter que le code xml qui apparait avec Firefox.
Quelqu'un sait comment je pourrais avoir dans mon objet f le code xml de la page avant mise en forme ?
D'avance merci
Partager