Extraire code source page web

**kango** · 12/10/2008, 12h50

Bonjour à tous,

Je souhaite acquérir des informations depuis une page web. Lorsque j'utilise la fonction "Affichage>Code source de la page" de firefox c'est une fichier xml qui apparait.

Lorsque je "récupère" cette page web avec urllib:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import urllib
f = urllib.urlopen("http://blabla.fr/")
lines=f.readlines()
f.close()
f=open('out.html','w')
for line in lines:
	f.write(line)
f.close()

J'obtiens une page en xhtml qui correspond au xml mise en forme via une feuille de style je suppose.

Bien entendu, je pourrai parser cette page html mais elle est franchement moins sympathique à traiter que le code xml qui apparait avec Firefox.

Quelqu'un sait comment je pourrais avoir dans mon objet f le code xml de la page avant mise en forme ?

D'avance merci

**pacificator** · 14/10/2008, 09h57

En modifiant le user-agent?

**kango** · 14/10/2008, 18h28

merci pour la réponse,

je connais pas (du tout) les technos web et je ne savais pas ce qu'était un user-agent avant que tu en parles

.

bref j'essaie de creuser mais je trouve surtout des références à des gens qui font ça en php ou en java. peuvent pas faire du python comme tout le monde

?

trêve de plaisanterie, si je trouve quelque chose, je reviens poster

.

**Levaillant** · 17/10/2008, 18h32

ben je suis un peu dans la même impasse que toi, à la différence près que mes données ne sont pas dans le fichier que je récupère... et Dieu sait qu'au point où j'en suis, je préfèrerais parser un fichier html où seraient ces données...

Allez tiens moi (nous) au courant

**xcombelle** · 26/11/2008, 14h26

Je pense qu'il vous manque un header accept
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
à utilser avec un objet Request pour pouvoir etre passe a urllib2

Extraire code source page web

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager