Télécharger une page html et la lire avant qu'elle soit complète

**kathan** · 07/02/2007, 22h53

Salut,

Ce que je voudrais faire c'est télécharger une page et, comme ça prend du temps, commencer à la lire avant qu'elle soit complètement téléchargée.

Pour récupérer la page pour l'instant, j'utilise

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
import urllib2
f = urllib2.urlopen('http://www.mapageweb.com')
f.read()

Utiliser f.readline() ou f.readlines() à la place de f.read() ne semble pas permetttre d'aller plus vite qu'avec read().

**Babaôrom** · 08/02/2007, 11h05

Dans ton code, f.read() n'est exécuté qu'après l'instruction précédente donc une fois ta page chargée.

Pour ce que tu veux, il faudrait que la récupération et la lecture s'exécutent dans des threads différentes. De plus il faudrait que la lecture se fasse par paquets que tu transmettrais à ton thread de lecture.

Par contre j'ai plus touché à python depuis un bout de temps donc pour te dire comment faire concrètement et pas seulement dans la structure du programme, il faudra quelqu'un d'autre!

**eyquem** · 11/02/2007, 02h39

Bonjour,

Personnellement, j'ai copie dans la page web suivante http://diveintopython.adrahon.org/html_processing/extracting_data.html
le procede suivant:

import urllib
sock = urllib.urlopen("http://diveintopython.org/")
htmlSource = sock.read()
sock.close()
print htmlSource

Le print de htmlSource apparait instantanement a l'ecran, il n'y aucune impression de defilement.

Ensuite, comme je voulais manipuler le contenu de htmlSource et que je n'y arrivais pas directement, j'ai essaye les instructions suivantes:

f = open('docu', 'w')
f.write(htmlSource)
f.close()
g = open('docu','r')
et ensuite on peut lire g comme on veut.

J'ai fait des essais.
Avec l'adresse http://www.boursorama.com/forum/file...symbole=1rPALO, ca donne ;

- la lecture de 'docu' sous forme de liste:
listedelignes = g.readlines()
print listedelignes est long a s'afficher (40 secondes)

- la lecture de 'docu' ligne apres ligne:
for line in g:
print line --> ca defile pendant 25 secondes avant d'avoir le resultat

En realite, je ne comprends pas exactement ce qui se passe.

En utilisant le programme suivant:
URL = raw_input(" Entrer l'URL\n}}")

import urllib
sock = urllib.urlopen(URL)
print '11'
print type(sock)
htmlSource = sock.read()
print '12'
print type(htmlSource)
sock.close()

f = open('fichierdelignes','w')
f.write(htmlSource)
print '13'
type(f)
f.close()
on voit que
sock est du type 'instance'
htmlSource est du type 'string'
le type de f ne sort pas, sic

Faire un read() sur sock, je sais pas trop ce que ca peut donner....
A mon humble avis, c'est un truc tordu, et c'est pour ca que c'est long.
D'ailleurs c'est tellement long que personnellement, j'ai essaye tes instructions, et je n'ai rien vu se passer, seulement le prompt qui reapparait 2 fois, puis rien.

htmlSource a le type 'string'
Mais comme cette chaine contient des caracteres de retour a la ligne, son ecriture dans un fichier donne un fichier de lignes et non pas d'une seule chaine en une seule ligne: c'est comme ca que je m'explique les choses, mais je ne garantis pas cette explication, je suis un debutant en Python.

Personnellement j'utilise le contenu du fichier 'docu' pour en extraire du texte, et pour cela je suis oblige de couper les extremites finales des lignes qui doivent etre des retour a la ligne (EOL je crois) car si je ne les coupe pas, je n'arrive pas a faire ce que je veux des donnees.

Voila, j'espere que cela t'aidera. Moi je debute en Python et je rame, je trouve les tutoriels mal faits sur certains points precis sur lesquels un debutant va bloquer. Le livre Dive into Python (lien donne plus haut) me semble assez mauvais pour un debutant. Il procede d'une facon seduisante de prime abord, mais on s'apercoit vite qu'on a du mal a avancer si on se limite a lui. Un livre de Swinnen, qui me paraissait au depart trop scolaire est finalement tres bien pour comprendre les notions de base avant d'aller plus loin.
Salut

**eyquem** · 11/02/2007, 02h41

lien mal sorti dans le message precedent:

http://www.boursorama.com/forum/file...symbole=1rPALO

**eyquem** · 11/02/2007, 02h42

ptin !!!!

forum/file_messages.phtml?symbole=1rPALO

**Amybond** · 11/02/2007, 12h19

Moi je voudrai afficher une page web dans ma explorateur. Comment puis je faire?

**eyquem** · 11/02/2007, 12h36

Comme disait Coluche, je ne comprends meme pas la question.
Ca veut dire quoi afficher une page web dans un explorateur ? La fonction Explore accessible par un clic droit ?
Et puis si tu dis tout de suite dans quel but tu cherches a faire ca, cela donne un eclairage a celui qui lit qui pourrait lui permettre de mieux repondre.
ET puis c'est je voudraiS

**pacificator** · 11/02/2007, 14h37

Il est possible de stipuler une taille en parametre à la fonction read() pour commencer à lire, en le faisant tourner dans une boucle.
exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
import urllib2
url = urllib2.urlopen('http://www.google.fr')
contenu = url.read(20)
while contenu:
    print contenu
    contenu = url.read(20)

**Amybond** · 11/02/2007, 16h03

Je voudrais ,que pendant l'execution de mon programme la page de mon site s'affiche et non son code source.Est ce assez clair?

**Amybond** · 11/02/2007, 16h08

C'est bon j'ai trouver ce que je chercher

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import webbrowser
webbrowser.open('http://www.monsite.fr')

Télécharger une page html et la lire avant qu'elle soit complète

Réseau/Web Python

Discussions similaires

Partager

Partager