Python, urllib, récupération de données d'une page PHP

**alexbts** · 06/01/2009, 15h12

Bonjour tout le monde,

Dans le cadre de mon stage, je dois récupérer les données (textes, images) d'une ou plusieurs pages PHP (pages générées par le logiciel CACTI).

Après quelques recherches, j'ai contasté que le module urllib pourrait être adapté à ma demande, cependant je ne sais pas si ce dernier permet récupérer des données d'une page PHP et c'est donc ma question.

Un cours Python pour ça ?

Je vous remercie pour vos réponses,

Alexandre

**Desintegr** · 06/01/2009, 16h24

Pour faire une simple requête GET :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
import urllib2
f = urllib2.urlopen("http://www.google.fr/")
data = f.read()
f.close()
print data

La bibliothèque urllib2 peut également gérer beaucoup d'autres choses comme l'authentification HTTP, les cookies, les proxies, etc.

Ensuite, tout dépend de ce que tu veux faire. Il existe des bibliothèques pour faire du parsing HTML par exemple (HTMLParser par exemple).

Et si tu veux savoir comment utiliser tout ça, il suffit de lire la documentation [1][2].

[1] http://docs.python.org/library/urllib2.html
[2] http://docs.python.org/library/htmlparser.html

Pour apprendre facilement Python regarde ces tutoriels et cours de formation Python : http://python.developpez.com/cours/
Pour bien apprendre Python suis ces tutoriels et cours de formation Python : http://python.developpez.com/cours/

**DelphiManiac** · 06/01/2009, 16h31

Envoyé par alexbts

Après quelques recherches, j'ai contasté que le module urllib pourrait être adapté à ma demande, cependant je ne sais pas si ce dernier permet récupérer des données d'une page PHP et c'est donc ma question.

urllib permets de récupérer du contenu HTML à partir d'une URL.

Tout comme un navigateur classique, urllib ne se préoccupe pas de savoir si le contenu est du HTML statique ou généré par un langage coté serveur. En gros que la page provienne d'un fichier HTML servi directement par apache, de PHP, de Python, de n'importe quoi, ce sera toujours du HTML que urllib pourra lire et récupérer. A toi après de parser ce HTML pour en obtenir les informations recherchés.

**Desintegr** · 06/01/2009, 17h41

Et pour info, il est conseillé d'utiliser urllib2.openurl() à la place d'urllib.urlopen() puisque cette dernière n'est plus disponible dans Python 3.0 :

Also note that the urllib.urlopen() function has been removed in Python 3.0 in favor of urllib2.urlopen().

**alexbts** · 07/01/2009, 20h04

Merci vos réponses.

ps : Desintegr, tu n'utiliserais pas Fedora par hasard ?

**Desintegr** · 07/01/2009, 20h52

Non, mais je suis déjà passé sur le forum fedora-fr

**alexbts** · 07/01/2009, 23h11

Ah ba oui, je me disais bien aussi

!

**alexbts** · 08/01/2009, 09h50

Bonjour,

Je cherche à me connecter à une page (celle-ci : http://***************/cacti/graph_view.php?) mais tout d'abord il faut passer par cette page http://***************/cacti/index.php pour s'authentifier. Après quelques recherche je suis arrivé à ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import urllib2
 
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
 
password_mgr.add_password(None, "http://**********/cacti", "********", "***********")
 
handler = urllib2.HTTPBasicAuthHandler(password_mgr)
 
opener = urllib2.build_opener(handler)
 
opener.open("http://***************/cacti/graph_view.php?action=tree&tree_id=1&leaf_id=7&select_first=true")
 
urllib2.install_opener(opener)
 
f = urllib2.urlopen("http://************/cacti/graph_view.php?action=tree&tree_id=1&leaf_id=7&select_first=true")
 
data = f.read()
 
f.close()
 
print data

Malheuresement à l'éxécution du programme il me sort :

File "/usr/lib64/python2.5/urllib2.py", line 387, in open
response = meth(req, response)
File "/usr/lib64/python2.5/urllib2.py", line 498, in http_response
'http', request, response, code, msg, hdrs)
File "/usr/lib64/python2.5/urllib2.py", line 419, in error
result = self._call_chain(*args)
File "/usr/lib64/python2.5/urllib2.py", line 360, in _call_chain
result = func(*args)
File "/usr/lib64/python2.5/urllib2.py", line 572, in http_error_302
self.inf_msg + msg, headers, fp)
urllib2.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
Found

Je ne comprends pas pourquoi l'authentification ne s'effectue pas...

Merci d'avance pour vos conseils

**DelphiManiac** · 08/01/2009, 11h10

Ne connaissant pas particulièrement urllib2, il me semble tout de même que les méthodes que tu utilises pour l'authentification s'attendent à ce que ce soit une authentification de type 'htaccess'. Celle qui demande un user et un password dans une fenêtre spécifique du navigateur.

La plupart des sites utilisent un formulaire classique pour l'authentification avec un "post" des données saisies, vérification coté serveur des droits et retour d'un token stocké dans un cookie.

Ne sachant pas comment fonctionne le site que tu essayes d'attaquer, il faudrait être sûr de la méthode d'authentification utilisé.

**Desintegr** · 08/01/2009, 12h31

Je pense, comme DelphiManiac, qu'il ne s'agit pas d'une authentification HTTP mais d'un simple formulaire HTML qui envoie le login/mot de passe et que l'on trouve sur la plupart des sites.

Il existe des bibliothèques pour gérer facilement ce genre d'authentification.
Il y a par exemple mechanize [1] (basé sur urllib2) pour faire ça.

[1] http://wwwsearch.sourceforge.net/mechanize/

Python, urllib, récupération de données d'une page PHP

Réseau/Web Python

Discussions similaires

Partager

Partager