Identification site web avec cookies

**anthard** · 25/03/2013, 16h40

Bonjour à tous,

Ceci est mon premier post, j'espère que vous serez indulgents ! Je ne poste presque jamais rien mais là mon problème semble inextricable. Après avoir fait quelques tentatives sur http://stackoverflow.com et m'être fait un peu renvoyé dans mes 22 (toutes les questions ne semblent pas être bonnes à être posées), je tente ça chez vous !

Je cherche à me loguer sur un site internet afin de télécharger des fichiers (qui requièrent une autorisation) de manière automatique. J'ai écumé tous les sites et forum traitant de cette question sans arriver à l'appliquer à mon problème :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import os
import requests
import urllib, urllib2, cookielib
 
username = 'mon_mail@fournisseur.fr'
password = 'mdp'
 
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
login_data = urllib.urlencode({'email' : username, 'password' : password})
opener.open('http://www.esprit.presse.fr/index.php', login_data)
 
code = '37407'
url = "http://www.esprit.presse.fr/archive/review/rt_download.php?code=%s" % (code)
r = requests.get(url)
filename = ['plop.pdf']
directory = os.getcwd()
with open("%s/%s" % (directory, filename[0]), "wb") as some_file:
    some_file.write(r.content)

Pour info, le site en question contient l'environnement post suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
<form method="post" name="FRMLogin" action="javascript:checkLogin();">
<input type="hidden" name="from" value="" />
<input type="hidden" name="to" value="/index.php" />
<input class="text" onclick="this.value='';" type="text" name="email" id="loginEmail" value=""/>
<input class="text" onclick="this.value='';" type="password" name="password" value="" />
<a href="javascript:document.FRMLogin.submit();"><img type="image" src="http://www.esprit.presse.fr/picture/blue_ok.png" alt="" /></a>
<input type="submit" name="button" class="unvisible" />
</form>

Le cas particulier qui m'intéresse ici est celui du site http://www.esprit.presse.fr. J'espère que ça ne rendra pas ma demande trop spécifique...

Si l'identification fonctionne, le fichier téléchargé est complet. Sinon le pdf ne contient qu'une seule page.
Si certains d'entre vous ont la moindre idée, je suis preneur. Si d'autre veulent m'aider à déboguer, je leur enverrai temporairement mes accès à ce site par MP avec grand plaisir.

Par avance je vous remercie.
Anthony_

**fred1599** · 25/03/2013, 16h57

Bonjour,

Avez-vous regardé les exemples de la doc ?

**anthard** · 25/03/2013, 17h24

Oui et, comme je le précise dans mon post, ai déjà testé des dizaines de solutions proposées sur le web.
Cela étant, rien ne dit que je ne sois pas passé à côté de quelque chose... D'où ce post.

**fred1599** · 25/03/2013, 17h37

Apparemment avec le module urllib j'arrive à télécharger les pdf libres, mais n'ayant pas de compte, je ne peux pas vous aider plus.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
>>> import urllib
>>> urllib.urlretrieve("http://www.esprit.presse.fr/archive/review/rt_download.php?code=37406", "test.pdf")

**anthard** · 25/03/2013, 18h12

Accès au site envoyé par MP.

Merci beaucoup...

**anthard** · 26/03/2013, 01h29

Un grand merci à fred1599 pour son aide et surtout à topic pour avoir solutionné ce problème avec élégance et simplicité.

Sa solution ci-dessous :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
import requests
 
urlConnection = "http://www.example.com/php_login.php"
 
login = {'email': 'monmail@gmail.com', 'password': 'pass'}
 
req = requests.session() #permet d'assurer le suivi de la session sur les différentes requêtes
res = req.post(urlConnection, data=login)
res = req.get("http://www.example.com/page_privee.html")
 
with open("fichier.pdf", "wb") as f:
    f.write(res.content)

Identification site web avec cookies

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager