[scrape.py] - Connexion à un forum sécurisé ?

**ulysse_31** · 28/04/2010, 04h51

Bonjour,

Je viens de découvrir ce module pour python et viens de la tester.
http://zesty.ca/python/scrape.py

J'ai parcouru la documentation et j'arrive bien a télécharger des contenus html sur lesquels je peux exécuter des expressions régulières etc etc

Mais

Quelqu'un pourrait t-il m'expliquer comment l'utiliser pour accéder à des pages sécurisées d'un forum (dont je suis l'admin) et qui requiert une authentification avec user et mot de passe ?
?

Par exemple, je voudrais récupérer automatiquement le nombre de membres inscrits ...

Comment puis-je procéder ?
Comment feriez-vous vous ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import sys
sys.path.append("C:\\Documents and Settings\\Administrateur\\Bureau")
from scrape import *
from scrapemark import *
 
scrapy = Session()
scrapy.agent = "Agent user 1"
scrapy.go("http://imacros.forum-libre.info/login.php")
scrapy.setcookie
scrapy.submit()
print scrapy.content
print scrapy.agent
 
TypeError: submit() takes at least 2 arguments (1 given)

**ulysse_31** · 09/05/2010, 08h34

Bon j'ai l'impression de progresser un peu
Mais j'ai cruellement besoin de votre aide ...

J'essaie en vain d'utiliser un cookie de firefox 3.5 pour accéder à la bonne page index de mon forum.
En faisant ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
#! /usr/bin/env python
import sys
sys.path.append("C:\\Documents and Settings\\Administrateur\\Bureau\\Projets\_Classes")
import scrape
 
def sqlite2cookie(filename):
    from cStringIO import StringIO
    from pysqlite2 import dbapi2 as sqlite
    import cookielib 
    con = sqlite.connect(filename) 
    cur = con.cursor()
    cur.execute("SELECT host, path, isSecure, expiry, name, value from moz_cookies WHERE host LIKE 'imacros.forum-libre.info'") 
    ftstr = ["FALSE","TRUE"] 
    s = StringIO()
    s.write("""\
# Netscape HTTP Cookie File
# http://www.netscape.com/newsref/std/cookie_spec.html
# This is a generated file!  Do not edit.
""")
    for item in cur.fetchall():
        s.write("%s\t%s\t%s\t%s\t%s\t%s\t%s\n" % (
            item[0], ftstr[item[0].startswith('.')], item[1],
            ftstr[item[2]], item[3], item[4], item[5])) 
    s.seek(0) 
    cookie_jar = cookielib.MozillaCookieJar()
    cookie_jar._really_load(s, '', True, True)
    #print cookie_jar
    return cookie_jar
 
mon_cookie = sqlite2cookie("C:\\Documents and Settings\\Administrateur\\Application Data\\Mozilla\\Firefox\\Profiles\\febeprof.stefane\\Copie de cookies.sqlite"

A priori j'ai maintenant "mon_cookie".

Mais comment utiliser "mon_cookie" ??

**wiztricks** · 09/05/2010, 11h50

Salut,

Comment puis-je procéder ?

Le scrapping des pages web est une solution basée sur l'analyse des contenus retourné par les pages.
Problème: le site évolue et le contenu des pages aussi... il faudra mettre à jour l'analyseur... Comme il s'agit de page HTML, il y a des balises qui permettent de faire cela "assez rapidement". Mais il faudrait déjà s'en rendre compte...

Comment feriez-vous vous ?

Si l'application est figée ou que vous voulez faire des mashups à partir d'un existant que vous ne pouvez/voulez pas modifer...
Le Web Scraping est raisonnable - vous n'avez pas le choix.
Si c'est "votre" site Web, vous pourriez construire une interface 'adhoc' pour récupérer les informations que vous désirez dans un format JSON, ou XML.
i.e. faire une requete HTTP sécurisée à une URL bien définie qui vous retourne un document XML de la forme:
<site>
<membres_inscrits>123</membres_inscrits>
</site>
est quand même plus propre.

A priori j'ai maintenant "mon_cookie".
Mais comment utiliser "mon_cookie" ??

Indépendamment des remarques précédentes, une lecture en diagonale de scrape.py suggèrerait d'essayer de le passer à la session via setcookie:
ma_session.setcookie(le_cookie)

- W

**ulysse_31** · 09/05/2010, 13h16

Merci pour votre intervention.

Je suis admin du forum en question, mais il appartient à la plateforme forum-libre.info. Je ne peux donc pas me fabriquer des pages php adequat.

J'ai quelques notions relatives aux webscaping - Je sais récupérer des pages html "lambda non sécurisées" en python et appliquer des regex avec urllib et urllib2. Et scrape.py, pour des pages html lambda est enfantin à utiliser.

Ce qui m'inquiète c'est la gestion des referer et des cookies principalement.
Dès qu'il ya un cookie de session je ne sais plus scraper.

La meilleure solution, d'après moi, consisterait à récuperer une copie du cookie firefox - puisqu'avec firefox la connection au forum est automatique - mon programme python devrait l'être (sans repasser par une authentification).

Je suis en train d'essayer setcookies

[scrape.py] - Connexion à un forum sécurisé ?

Bibliothèques tierces Python

Vue hybride

Discussions similaires

Partager

Partager