récupération de pages

**gigi_10** · 03/10/2010, 17h27

Bonjour à vous,
je vous expose mon problème.
Je fais par programme des lignes de commande pour récupérer des pages sur un site afin de les traiter. Cà marche jusqu'à un certain point, mais après, çà veut plus. Hors, en faisant un copier-collé de ces lignes avec mon navigateur, la même ligne fonctionne correctement.
Peut-être un cookie à fournir? il y a du javascript J'y comprend rien

Alors, si on pouvait m'indiquer la marche à suivre:
Mon idée serait d'envoyer mes lignes de commande vers le navigateur et de récupérer les pages en retour.

C'est peut-être un rêve fou?

Mon seul désir est de faire faire par programme ce que je devrais faire à la souris. Je ne pense pas faire du piratage de cette façon? Mais bon, je ne peux quand même pas écrire ici la ligne de commande vers le site en question

En config, j'ai un PC sous vista. J'utilise Mozilla en navigateur et python V3.1

Bref, si vous aviez une solution, je vous en remercie à l'avance

**wiztricks** · 03/10/2010, 19h36

Salut,
Il faudrait que vous détaillez un peu plus les cas d'utilisation et les soucis que vous rencontrez. Sinon les difficultés sont plutôt dans le démêlage de ce que font les différents composants techniques que dans l'écriture de code.
Cette discussion vous montre comment on peut récupérer les pages avec urllib2 ou avec automatize et en extraire ce qu'on veut.
Ce post affiche les pages dans le browser WebKit via Qt. C'est parfois nécessaire pour récupérer le contenu de sites dynamiques.
- W

**gigi_10** · 04/10/2010, 07h33

Bonjour wiztricks,

comme tu es modérateur, tu verras si je peux désigner un site ici. Lorsque je lance ce programme, çà fonctionne correctement, sauf que le résultat de la recherche reste à 0
-ctrl F '<EM'
Or si je lance cette même ligne sur mon navigateur la page est correctement affichée

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
 
import urllib.request
 
def chargePage(url):
    print(url)
    sock = urllib.request.urlopen(url)
    buffer= sock.read()
    sock.close()
    return buffer
 
urlbase= "http://www.aef.cci.fr"
 
urlsuite= "/rechercheMulticritere"
uri= "/services/cantons/executer?p_filtre=departements_"
 
NAF2008= "/services/sousClassesNAF2008/executer?"
 
selectcritere= "criteresSelectionnes"
valider= "/valider?"
comptage= "/comptage?"
valideselect=  valider + selectcritere + "%3Alist=cantons_1001&"+\
              selectcritere + "%3Alist=sousClassesNAF2008_0161Z"
compteselect= comptage + selectcritere +\
           "%3Alist=cantons_1001&" +selectcritere +\
           "%3Alist=sousClassesNAF2008_0161Z"
 
 
buffer= chargePage(urlbase+ urlsuite)
 
print("********************************")
"""
genereCantons("10")
genereNAF2008()
print("********************************")
s= urlbase + urlsuite+ ' SetCookie:path=/_r_n'
buffer= chargePage(s)
chercheCookie()
#print(str(buffer))
"""
print("********************************")
s= urlbase + urlsuite+ valideselect
buffer= chargePage(s)
print(str(buffer))

Comme je suis sur python 3.1, je n'ai peut-être pas l'ensemble de libs disponibles, et je suis assez nouveau dans la matière.

Dans un site précédent, qui n'existe plus, j'avais à extraire un "UserReference" de mes pages et les renvoyer avec mes commandes. Comme cette référence n'apparait plus, je me doute qu'il faudrait gérer les cookies. Mais là je suis sec

a plus, Gigi

**wiztricks** · 04/10/2010, 10h48

Salut,
Je n'ai pas de version Python 3.1 sous la main pour 'tester' alors j'ai modifié votre code pour qu'il utilise urllib2 python2.7. Ce qui ré-écrit chargePage ainsi:

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import urllib2
 
def chargePage(url):
    print(url)
    http = urllib2.urlopen(url)
    content = http.read()
    http.close()
    return content

Et çà 'fonctionne', au sens ou çà retourne un contenu non vide mais différent car entré directement sous le navigateur çà trouve 3 entreprises alors que la page retournée par le script en "trouve" 0.

Est ce que cela est "le problème"?
- W

**gigi_10** · 04/10/2010, 17h48

re bonjour wiztricks,

en effet, nous avons le même résultat. Ma page est correcte, sauf que, par mon programme le nombre d'entreprises est à 0.

J'ai vu la doc python 3.1, il semble que le module urllib ait intégré urllib2. Ce qui nous ramène au même point.

C'est pourquoi, au cas où, ce serait sympa de pouvoir envoyer mes commandes au navigateur et qu'il me retourne les pages.

J'ai jeté un coup d'œil avec wireshark. Sur un accès normal avec le navigateur, on trouve une commande POST avec /valider, suivi d'un tas de cookies, puis les critères sélectionnés.
C'est suivi d'une commande GET avec /comptage.
Est ce que le navigateur remet ma commande en forme et envoie le tout dans le bon ordre?

Mystère
Allez à plus, merci pour tout, Gigi

**wiztricks** · 04/10/2010, 20h58

Salut,
Le soucis est que la première requête retourne un cookie qu'il faut inclure dans les en-têtes de la requête suivante.
La bibliothèque mechanize sait très bien gérer cela de façon transparente ou "programmatique".
Vous pourriez y jeter un oeil.
- W

**gigi_10** · 05/10/2010, 09h55

Salut wiztricks,
Hé bien çà marche!

J'ai pas mal galéré, il a fallu changer de version. J'ai pris la 2.7 car mechanize plante sur la 3.1 et j'ai fini par comprendre où mettre la lib.

Il y a un truc bizarre qui s'est passé. En chargeant mon source tous mes accents sont passés à la trappe?

Enfin je te remercie grandement. J'espère bien mener l'affaire jusqu'au bout, mais j'aurais sans doute encore besoin de vous

A bientôt, Gigi

**gigi_10** · 06/10/2010, 13h32

bonjour à vous,
voilà, je me doutais que c'était trop beau!! Domm

j'ai bien avancé jusqu'au point des consulter les dernières pages du site.
Sur la consultation des fiches, on me retourne une page avec:
"La consultation des fiches
est interdite en accÃ¨s direct."
Je passe le code en version Python 2.7:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
 
import mechanize
 
def reponses(level, rep, cmd):
    if level== 0:
        rep.geturl()
        rep.info()
        rep.read()
    else:
        print rep.geturl()
        print rep.info()
        print rep.read()
    print cmd
 
urlbase= "http://www.aef.cci.fr/rechercheMulticritere"
selectcritere= "criteresSelectionnes"
valider= "/valider?"
valideselect=  valider + selectcritere + "%3Alist=cantons_1001&"+\
              selectcritere + "%3Alist=sousClassesNAF2008_0161Z"
liste= "/listeEntreprises"
debut= "/?p_debut="
curliste= "0"
 
fiche= "/ficheEntreprise?"
siret= "siret="
nosiret= "34897822200027"
 
request= mechanize.Request(urlbase)
response= mechanize.urlopen(request)
 
a= urlbase + valideselect
request2= mechanize.Request(a)
response2= mechanize.urlopen(request2)
reponses(0, response2, a)
print "********************************************"
a= urlbase + liste + debut + curliste
request3= mechanize.Request(a)
response3= mechanize.urlopen(request3)
 
reponses(0, response3, a)
print "********************************************"
a= urlbase + liste + fiche + siret + nosiret
request4= mechanize.Request(a)
response4= mechanize.urlopen(request4)
 
reponses(1, response4, a)
print "finiéèàù"

Je suis tout nouveau sur mechanize il fait déjà beaucoup, alors un miracle de plus ou de moins ....

Je vous remercie à l'avance, Gigi

récupération de pages

Réseau/Web Python

Discussions similaires

Partager

Partager