Vitesse d'importation de code source html avec Python (urllib.request, urlopen)

Version imprimable

03/09/2015, 02h48
Termirtau

Vitesse d'importation de code source html avec Python (urllib.request, urlopen)

Bonjour,

codant en Python, l'une de mes boucles utilise le module urllib.request pour importer des url puis les codes sources html des pages correspondant à ces url. Pour cela, j'utilise une fonction du style :

import urllib.request

with urllib.request.urlopen(adresse) as url:
t = url.read()

Et j'exploite ensuite t.

Le problème est que cette méthode prend trop de temps à mon goût. Les pages html que j'importe correspondent souvent à des articles de presse avec quelques milliers de caractères (pour le texte en langage naturel), sans compter toutes les autres parties du code html qu'une page de blog/site de presse peut avoir.
Le temps d'import varie de 1 à 10 secondes selon les url.

Je voulais vous demander : quelle est, selon vous, la plus rapide méthode pour importer des codes sources html en Python à partir d'url? Faut-il utiliser un module différent de urllib.request ? Une autre fonction que urlopen ou read() ?

Je vous remercie d'avance de vos réponses.

Termirtau
03/09/2015, 06h39
VinsS
Salut,

J'utilise
Code:

1 2 content = urllib2.urlopen(url).read()
sans avoir jamais remarqué de lenteur de chargement. En tous cas, pas différent du temps nécessaire pour ouvrir la page dans un navigateur.

As-tu un exemple de page particulièrement lente à charger, qu'on essaye ?
03/09/2015, 19h09
BufferBob

salut,

urlopen() c'est pas un import, c'est une requête effectuée sur le réseau, si ça dure 10s c'est plus probablement la lenteur de ta connexion, la charge du serveur web, le chemin réseau etc. etc. et tu vas certainement avoir du mal à accélérer les choses comme Python n'y est sans doute pour rien
03/09/2015, 23h53
Termirtau

Bonjour,

et merci de vos réponses.

BufferBob, ce que tu dis m'a l'air plausible, car le temps d'exécution de ma boucle varie du simple au double selon le moment.

VinsS, est-ce que urllib2 est un package à part entière, ou un autre nom de urllib.request ?

Si tu veux un jeu d'url que j'ai lancées en boucle, en voici dix ci-dessous. L'exécution a pris 27 secondes chez moi, dont 1 environ pour les traitements hors urlopen() et read().

http://www.latribune.fr/opinions/tri...nevitable.html
http://fr.wikipedia.org/wiki/Krach
http://fr.wikipedia.org/wiki/Krach_de_1929
http://www.toupie.org/Dictionnaire/Krach_boursier.htm
http://www.lepoint.fr/economie/la-su...1896817_28.php
http://www.lefigaro.fr/conjoncture/2...h-boursier.php
http://www.lepoint.fr/economie/krach...1897208_28.php
http://lci.tf1.fr/lexique/le-krach-b...r-6627439.html
http://www.huffingtonpost.fr/2015/01...n_6477512.html
http://www.latribune.fr/opinions/tri...nevitable.html

J'ai essayé d'abord avec wget qui n'a chargé que deux pages:

http://www.toupie.org/Dictionnaire/Krach_boursier.htm 1.737 Ko, 0 sec.
http://www.latribune.fr/opinions/tri...nevitable.html 264 Ko 0,1 sec.

Tout le reste erreur 404 ou 410

Avec python 2 et urllib2.urlopen

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 
def get_content2(url):
    return urllib2.urlopen(url).read()
 
begin = time.clock()
for url in URLS:
    content = get_content2(url)
    print('%s loaded, len: %s' %(url.split('/')[-1], len(content)))
print('End at: %s' % str(time.clock()-begin))
 
--------------------------------------------
pourquoi-un-nouveau-krach-boursier-est-inevitable.html loaded, len: 264293
Krach loaded, len: 81752
Krach_de_1929 loaded, len: 77488
Krach_boursier.htm loaded, len: 5416
la-suisse-entre-tempete-financiere-et-krach-boursier-15-01-2015-1896817_28.php loaded, len: 244347
20002-20150115ARTFIG00181-la-suisse-est-en-train-de-vivre-un-krach-boursier.php loaded, len: 161886
krach-boursier-en-suisse-pour-les-francais-c-est-noel-en-janvier-16-01-2015-1897208_28.php loaded, len: 245493
le-krach-boursier-6627439.html loaded, len: 95406
suisse-krach-bourse-franc-monnaie_n_6477512.html loaded, len: 124725
pourquoi-un-nouveau-krach-boursier-est-inevitable.html loaded, len: 264293
End at: 0.09
-----------------------------------------------

Par contre python 3 et urllib.request me retourne une erreur

Code:

1
2
3
4
5
6
7
8
9
 
Python 3.2.3 (default, Jun 18 2015, 21:46:42) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import urllib
>>> urllib.request.urlopen('http://fr.wikipedia.org/wiki/Krach')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'module' object has no attribute 'request'

Faudra que j'enquête là-dessus.

Avec Python 3.4 c'est mieux et il faut importer urllib.request.

Code:

1
2
3
4
5
6
7
8
9
10
11
12
 
pourquoi-un-nouveau-krach-boursier-est-inevitable.html loaded, len: 264287
Krach loaded, len: 81752
Krach_de_1929 loaded, len: 77465
Krach_boursier.htm loaded, len: 5416
la-suisse-entre-tempete-financiere-et-krach-boursier-15-01-2015-1896817_28.php loaded, len: 244347
20002-20150115ARTFIG00181-la-suisse-est-en-train-de-vivre-un-krach-boursier.php loaded, len: 161782
krach-boursier-en-suisse-pour-les-francais-c-est-noel-en-janvier-16-01-2015-1897208_28.php loaded, len: 245493
le-krach-boursier-6627439.html loaded, len: 95251
suisse-krach-bourse-franc-monnaie_n_6477512.html loaded, len: 124727
pourquoi-un-nouveau-krach-boursier-est-inevitable.html loaded, len: 264287
End at: 0.065254

06/09/2015, 01h40
Termirtau

Bonsoir,

merci, VinsS, de ton expérience.

Mais j'ai toujours des temps d'opérations bien trop longs.

Voici mon code, moins élégant que le tien :

Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:38:22) [MSC v.1600 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import time
>>> time.clock()
3.205976966979078e-07
>>> import urllib.request
>>> t=urllib.request.urlopen('http://fr.wikipedia.org/wiki/Krach').read()
>>> time.clock()
1.8340922949473162
>>> t=urllib.request.urlopen('http://fr.wikipedia.org/wiki/Krach_de_1929').read()
>>> time.clock()
2.885386644028195
>>> t=urllib.request.urlopen('http://www.latribune.fr/opinions/tribunes/20140411trib000825182/pourquoi-un-nouveau-krach-boursier-est-inevitable.html').read()
>>> time.clock()
4.720084548024573
>>> t=urllib.request.urlopen('http://www.toupie.org/Dictionnaire/Krach_boursier.htm').read()
>>> time.clock()
4.830150866864112
>>> t=urllib.request.urlopen('http://www.lepoint.fr/economie/la-suisse-entre-tempete-financiere-et-krach-boursier-15-01-2015-1896817_28.php').read()
>>> time.clock()
6.473320500876193
>>> t=urllib.request.urlopen('http://www.lefigaro.fr/conjoncture/2015/01/15/20002-20150115ARTFIG00181-la-suisse-est-en-train-de-vivre-un-krach-boursier.php').read()
>>> time.clock()
8.039108110031695
>>> t=urllib.request.urlopen('http://www.lepoint.fr/economie/krach-boursier-en-suisse-pour-les-francais-c-est-noel-en-janvier-16-01-2015-1897208_28.php').read()
>>> time.clock()
9.67636944909133
>>> t=urllib.request.urlopen('http://lci.tf1.fr/lexique/le-krach-boursier-6627439.html').read()
>>> time.clock()
11.117034509777268
>>> t=urllib.request.urlopen('http://www.huffingtonpost.fr/2015/01/15/suisse-krach-bourse-franc-monnaie_n_6477512.html').read()
>>> time.clock()
12.559265690211575
>>> t=urllib.request.urlopen('http://www.latribune.fr/opinions/tribunes/20140411trib000825182/pourquoi-un-nouveau-krach-boursier-est-inevitable.html').read()
>>> time.clock()
14.373972083634962

Peut-être que BufferBob a raison, et que cela est dû à ma propre connexion. Quelle est ta vitesse de transfert? Quel autre paramètre pourrait influencer sur les performances de urllib.request?

Cordialement,
Termirtau
06/09/2015, 02h31
VinsS

J'ai 3.500 ko/sec.

C'est plus que probable que ce soit ta bande passante qui soit un peu faible.

Solution: Voir les offres des autres fournisseurs d'accès internet...
06/09/2015, 05h39
BufferBob

Citation:

Envoyé par VinsS

Solution: Voir les offres des autres fournisseurs d'accès internet...

juste pour consulter une poignée de sites web, c'est assez radical :aie: d'autant que c'est peut-être pas le débit à proprement parler de la connexion, c'est peut-être simplement le DNS du FAI qui est un peu lambin/chargé (...) dans tous les cas ça ne vient pas de Python
06/09/2015, 15h57
Termirtau

En effet, les différents tests que j'ai effectué me situent plutôt à 1200 kbits (150 ko) par seconde en vitesse descendante, et 400 kbits (50 ko) par seconde en vitesse ascendante...
VinsS, tu parlais bien en ko/sec et non en kbits/sec?
06/09/2015, 17h16
VinsS

Je confirme, 3.500 ko/sec, que je vérifie avec une application qui calcule en temps/taille de fichier.
06/09/2015, 17h47
Termirtau

Ok, merci de ces infos à tous les 2, je sais qu'il est possible d'avoir un bon rendu sur ce que je veux faire.