IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

Récupérer le code source d'une page HTML


Sujet :

Réseau/Web Python

  1. #1
    Candidat au Club
    Profil pro
    Inscrit en
    Juin 2007
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2007
    Messages : 5
    Points : 2
    Points
    2
    Par défaut Récupérer le code source d'une page HTML
    Bonsoir,

    je cherche à récupérer le code source d'une page html et à l'enregistrer dans un fichier texte afin de traiter les données récupérées via un script php. J'ai fait pas mal de recherche, et la fonction la plus interessante et marchant le mieux m'est apparut être html2text, dont il existe plusieurs versions. La seule version que j'ai trouvée prenant en entrée une url et non un fichier .html et étant sous forme de script web est celle ci:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    363
    364
    365
    366
    367
    368
    369
    370
    371
    372
    373
    374
    375
    376
    377
    378
    379
    380
    381
    382
    383
    384
    385
    386
    387
    388
    389
    390
    391
    392
    393
    394
    395
    396
    397
    398
    399
    400
    401
    402
    403
    404
    405
    406
    407
    408
    409
    410
    411
    412
    413
     
    """html2text: Turn HTML into equivalent Markdown-structured text."""
    __version__ = "2.28"
    __author__ = "Aaron Swartz (me@aaronsw.com)"
    __copyright__ = "(C) 2004-2007 Aaron Swartz. GNU GPL 2."
    __contributors__ = ["Martin 'Joey' Schulze", "Ricardo Reyes"]
     
    # TODO:
    #   Support decoded entities with unifiable.
    #	Relative URL resolution
     
    if not hasattr(__builtins__, 'True'): True, False = 1, 0
    import re, sys, urllib, htmlentitydefs, codecs, StringIO, types
    import sgmllib
    sgmllib.charref = re.compile('&#([xX]?[0-9a-fA-F]+)[^0-9a-fA-F]')
     
    try: from textwrap import wrap
    except: pass
     
    # Use Unicode characters instead of their ascii psuedo-replacements
    UNICODE_SNOB = 0
     
    # Put the links after each paragraph instead of at the end.
    LINKS_EACH_PARAGRAPH = 0
     
    # Wrap long lines at position. 0 for no wrapping. (Requires Python 2.3.)
    BODY_WIDTH = 0
     
    ### Entity Nonsense ###
     
    def name2cp(k):
    	if k == 'apos': return ord("'")
    	if hasattr(htmlentitydefs, "name2codepoint"): # requires Python 2.3
    		return htmlentitydefs.name2codepoint[k]
    	else:
    		k = htmlentitydefs.entitydefs[k]
    		if k.startswith("&#") and k.endswith(";"): return int(k[2:-1]) # not in latin-1
    		return ord(codecs.latin_1_decode(k)[0])
     
    unifiable = {'rsquo':"'", 'lsquo':"'", 'rdquo':'"', 'ldquo':'"', 
    'copy':'(C)', 'mdash':'--', 'nbsp':' ', 'rarr':'->', 'larr':'<-', 'middot':'*',
    'ndash':'-', 'oelig':'oe', 'aelig':'ae',
    'agrave':'a', 'aacute':'a', 'acirc':'a', 'atilde':'a', 'auml':'a', 'aring':'a', 
    'egrave':'e', 'eacute':'e', 'ecirc':'e', 'euml':'e', 
    'igrave':'i', 'iacute':'i', 'icirc':'i', 'iuml':'i',
    'ograve':'o', 'oacute':'o', 'ocirc':'o', 'otilde':'o', 'ouml':'o', 
    'ugrave':'u', 'uacute':'u', 'ucirc':'u', 'uuml':'u'}
     
    unifiable_n = {}
     
    for k in unifiable.keys():
    	unifiable_n[name2cp(k)] = unifiable[k]
     
    def charref(name):
    	if name[0] in ['x','X']:
    		c = int(name[1:], 16)
    	else:
    		c = int(name)
     
    	if not UNICODE_SNOB and c in unifiable_n.keys():
    		return unifiable_n[c]
    	else:
    		return unichr(c)
     
    def entityref(c):
    	if not UNICODE_SNOB and c in unifiable.keys():
    		return unifiable[c]
    	else:
    		try: name2cp(c)
    		except KeyError: return "&" + c
    		else: return unichr(name2cp(c))
     
    def replaceEntities(s):
    	s = s.group(1)
    	if s[0] == "#": 
    		return charref(s[1:])
    	else: return entityref(s)
     
    r_unescape = re.compile(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));")
    def unescape(s):
    	return r_unescape.sub(replaceEntities, s)
     
    def fixattrs(attrs):
    	# Fix bug in sgmllib.py
    	if not attrs: return attrs
    	newattrs = []
    	for attr in attrs:
    		newattrs.append((attr[0], unescape(attr[1])))
    	return newattrs
     
    ### End Entity Nonsense ###
     
    def onlywhite(line):
    	"""Return true if the line does only consist of whitespace characters."""
    	for c in line:
    		if c is not ' ' and c is not '	':
    			return c is ' '
    	return line
     
    def optwrap(text):
    	"""Wrap all paragraphs in the provided text."""
    	if not BODY_WIDTH:
    		return text
     
    	assert wrap # Requires Python 2.3.
    	result = ''
    	newlines = 0
    	for para in text.split("\n"):
    		if len(para) > 0:
    			if para[0] is not ' ' and para[0] is not '-' and para[0] is not '*':
    				for line in wrap(para, BODY_WIDTH):
    					result += line + "\n"
    				result += "\n"
    				newlines = 2
    			else:
    				if not onlywhite(para):
    					result += para + "\n"
    					newlines = 1
    		else:
    			if newlines < 2:
    				result += "\n"
    				newlines += 1
    	return result
     
    def hn(tag):
    	if tag[0] == 'h' and len(tag) == 2:
    		try:
    			n = int(tag[1])
    			if n in range(1, 10): return n
    		except ValueError: return 0
     
    class _html2text(sgmllib.SGMLParser):
    	def __init__(self, out=sys.stdout.write):
    		sgmllib.SGMLParser.__init__(self)
     
    		if out is None: self.out = self.outtextf
    		else: self.out = out
    		self.outtext = u''
    		self.quiet = 0
    		self.p_p = 0
    		self.outcount = 0
    		self.start = 1
    		self.space = 0
    		self.a = []
    		self.astack = []
    		self.acount = 0
    		self.list = []
    		self.blockquote = 0
    		self.pre = 0
    		self.startpre = 0
    		self.lastWasNL = 0
     
    	def outtextf(self, s): 
    		if type(s) is type(''): s = codecs.utf_8_decode(s)[0]
    		self.outtext += s
     
    	def close(self):
    		sgmllib.SGMLParser.close(self)
     
    		self.pbr()
    		self.o('', 0, 'end')
     
    		return self.outtext
     
    	def handle_charref(self, c):
    		self.o(charref(c))
     
    	def handle_entityref(self, c):
    		self.o(entityref(c))
     
    	def unknown_starttag(self, tag, attrs):
    		self.handle_tag(tag, attrs, 1)
     
    	def unknown_endtag(self, tag):
    		self.handle_tag(tag, None, 0)
     
     	def previousIndex(self, attrs):
     		""" returns the index of certain set of attributes (of a link) in the
                            self.a list
     
                            If the set of attributes is not found, returns None
                    """
     		if not attrs.has_key('href'): return None
     
     		i = -1
     		for a in self.a:
     			i += 1
     			match = 0
     
     			if a.has_key('href') and a['href'] == attrs['href']:
     				if a.has_key('title') or attrs.has_key('title'):
     						if (a.has_key('title') and attrs.has_key('title') and
    						    a['title'] == attrs['title']):
     							match = True
     				else:
     					match = True
     
     			if match: return i
     
    	def handle_tag(self, tag, attrs, start):
    		attrs = fixattrs(attrs)
     
    		if hn(tag):
    			self.p()
    			if start: self.o(hn(tag)*"#" + ' ')
     
    		if tag in ['p', 'div']: self.p()
     
    		if tag == "br" and start: self.o("  \n")
     
    		if tag == "hr" and start:
    			self.p()
    			self.o("* * *")
    			self.p()
     
    		if tag in ["head", "style", 'script']: 
    			if start: self.quiet += 1
    			else: self.quiet -= 1
     
    		if tag == "blockquote":
    			if start: 
    				self.p(); self.o('> ', 0, 1); self.start = 1
    				self.blockquote += 1
    			else:
    				self.blockquote -= 1
    				self.p()
     
    		if tag in ['em', 'i', 'u']: self.o("_")
    		if tag in ['strong', 'b']: self.o("**")
    		if tag == "code" and not self.pre: self.o('`') #TODO: `` `this` ``
     
    		if tag == "a":
    			if start:
    				attrsD = {}
    				for (x, y) in attrs: attrsD[x] = y
    				attrs = attrsD
    				if attrs.has_key('href'): 
    					self.astack.append(attrs)
    					self.o("[")
    				else:
    					self.astack.append(None)
    			else:
    				if self.astack:
    					a = self.astack.pop()
    					if a:
    						i = self.previousIndex(a)
    						if i is not None:
    							a = self.a[i]
    						else:
    							self.acount += 1
    							a['count'] = self.acount
    							a['outcount'] = self.outcount
    							self.a.append(a)
    						self.o("][" + `a['count']` + "]")
     
    		if tag == "img" and start:
    			attrsD = {}
    			for (x, y) in attrs: attrsD[x] = y
    			attrs = attrsD
    			if attrs.has_key('src'):
    				attrs['href'] = attrs['src']
    				alt = attrs.get('alt', '')
    				i = self.previousIndex(attrs)
    				if i is not None:
    					attrs = self.a[i]
    				else:
    					self.acount += 1
    					attrs['count'] = self.acount
    					attrs['outcount'] = self.outcount
    					self.a.append(attrs)
    				self.o("![")
    				self.o(alt)
    				self.o("]["+`attrs['count']`+"]")
     
    		if tag == 'dl' and start: self.p()
    		if tag == 'dt' and not start: self.pbr()
    		if tag == 'dd' and start: self.o('    ')
    		if tag == 'dd' and not start: self.pbr()
     
    		if tag in ["ol", "ul"]:
    			if start:
    				self.list.append({'name':tag, 'num':0})
    			else:
    				if self.list: self.list.pop()
     
    			self.p()
     
    		if tag == 'li':
    			if start:
    				self.pbr()
    				if self.list: li = self.list[-1]
    				else: li = {'name':'ul', 'num':0}
    				self.o("  "*len(self.list)) #TODO: line up <ol><li>s > 9 correctly.
    				if li['name'] == "ul": self.o("* ")
    				elif li['name'] == "ol":
    					li['num'] += 1
    					self.o(`li['num']`+". ")
    				self.start = 1
    			else:
    				self.pbr()
     
    		if tag in ["table", "tr"] and start: self.p()
    		if tag == 'td': self.pbr()
     
    		if tag == "pre":
    			if start:
    				self.startpre = 1
    				self.pre = 1
    			else:
    				self.pre = 0
    			self.p()
     
    	def pbr(self):
    		if self.p_p == 0: self.p_p = 1
     
    	def p(self): self.p_p = 2
     
    	def o(self, data, puredata=0, force=0):
    		if not self.quiet: 
    			if puredata and not self.pre:
    				data = re.sub('\s+', ' ', data)
    				if data and data[0] == ' ':
    					self.space = 1
    					data = data[1:]
    			if not data and not force: return
     
    			if self.startpre:
    				#self.out(" :") #TODO: not output when already one there
    				self.startpre = 0
     
    			bq = (">" * self.blockquote)
    			if not (force and data and data[0] == ">") and self.blockquote: bq += " "
     
    			if self.pre:
    				bq += "    "
    				data = data.replace("\n", "\n"+bq)
     
    			if self.start:
    				self.space = 0
    				self.p_p = 0
    				self.start = 0
     
    			if force == 'end':
    				# It's the end.
    				self.p_p = 0
    				self.out("\n")
    				self.space = 0
     
     
    			if self.p_p:
    				self.out(('\n'+bq)*self.p_p)
    				self.space = 0
     
    			if self.space:
    				if not self.lastWasNL: self.out(' ')
    				self.space = 0
     
    			if self.a and ((self.p_p == 2 and LINKS_EACH_PARAGRAPH) or force == "end"):
    				if force == "end": self.out("\n")
     
    				newa = []
    				for link in self.a:
    					if self.outcount > link['outcount']:
    						self.out("   ["+`link['count']`+"]: " + link['href']) #TODO: base href
    						if link.has_key('title'): self.out(" ("+link['title']+")")
    						self.out("\n")
    					else:
    						newa.append(link)
     
    				if self.a != newa: self.out("\n") # Don't need an extra line when nothing was done.
     
    				self.a = newa
     
    			self.p_p = 0
    			self.out(data)
    			self.lastWasNL = data and data[-1] == '\n'
    			self.outcount += 1
     
    	def handle_data(self, data):
    		self.o(data, 1)
     
    	def unknown_decl(self, data): pass
     
    def wrapwrite(text): sys.stdout.write(text.encode('utf8'))
     
    def html2text_file(html, out=wrapwrite):
    	h = _html2text(out)
    	h.feed(html)
    	h.feed("")
    	return h.close()
     
    def html2text(html):
    	return optwrap(html2text_file(html, None))
     
    if __name__ == "__main__":
    	if sys.argv[1:]:
    		arg = sys.argv[1]
    		if arg.startswith('http://'):
    			j = urllib.urlopen(arg)
    			try:
    				from feedparser import _getCharacterEncoding as enc
    			except ImportError:
    			       enc = lambda x, y: y, x
    			text = j.read()
    			encoding = enc(j.headers, text)[0]
    			if encoding == 'us-ascii': encoding = 'utf-8'
    			data = html2text_file(text.decode(encoding))
     
    		else:
    			data = open(arg, 'r').read()
    	else:
    		data = sys.stdin.read()
    	html2text_file(data)
    Selon moi, la fonction qui devrais lancer le tout est html2text(html), mais quand je passe l'adresse avec comme nom de parametre "html", elle m'affiche l'adresse, et quand je met le meme nom de parametre que dans la page de démonstration, à savoir "url", j'obtiens une erreur m'indiquant qu'il faut un parametre à cette fonction...

    Je n'ai donc pas réussi à la faire fonctionner. Il existe certes un site de démonstration, ou cela fonctionne bien: http://www.aaronsw.com/2002/html2text/
    mais impossible de la faire fonctionner chez moi, ou j'ai installé à la main un serveur apache + mod php + serveur mysql + mod python. Tout marche bien, aussi bien le php communiquant avec mysql que les script python. Pourriez vous m'aider à faire fonctionner ce script ? C'est à dire, m'indiquer quelles sont les instructions à mettre dans le http.conf d'apache, ainsi que les paramètres du formulaire de la page permettant d'appeller ce script avec une url en parametre ? J'ai essayé d'analyser le code de la page de démonstration, mais impossible de le faire marcher.

    Merci.

    Salutations

  2. #2
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2007
    Messages : 10
    Points : 8
    Points
    8
    Par défaut
    Bonjour,

    Si tu souhaites récuperer un fichier sur internet, tu peux utiliser les modules urllib,urllib2.

    Reste à toi ensuite de t'en servir via tes scripts php.

    Pour récupérer la page d'accueil de google (ou un fichier binaire au passage )

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    import urllib
     
    urllib.urlretrieve('http://www.google.fr/','./temp.html')

  3. #3
    Candidat au Club
    Profil pro
    Inscrit en
    Juin 2007
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2007
    Messages : 5
    Points : 2
    Points
    2
    Par défaut
    Mais urllib est-elle une librairie Python ou php ?

    EDIT>>Question idiote, Python

    EDIT2>>Mais comment l'appeller?

  4. #4
    Membre du Club
    Inscrit en
    Mai 2007
    Messages
    45
    Détails du profil
    Informations personnelles :
    Âge : 39

    Informations forums :
    Inscription : Mai 2007
    Messages : 45
    Points : 49
    Points
    49
    Par défaut
    bah comme ca :

    qui pisse contre la tempête, mouille ses chaussettes!

  5. #5
    Membre du Club
    Inscrit en
    Mai 2007
    Messages
    45
    Détails du profil
    Informations personnelles :
    Âge : 39

    Informations forums :
    Inscription : Mai 2007
    Messages : 45
    Points : 49
    Points
    49
    Par défaut
    c'est mis au dessus
    qui pisse contre la tempête, mouille ses chaussettes!

  6. #6
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2014
    Messages
    50
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Boutique - Magasin

    Informations forums :
    Inscription : Août 2014
    Messages : 50
    Points : 58
    Points
    58
    Par défaut
    Bonjour,

    urllib2 est plutôt intéressante.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    import urllib2
     
    url = "http://www.google.fr"
    req = urllib2.urlopen(url).read()
     
    print req
    print len(req)

Discussions similaires

  1. Récupérer le code source d'une page HTML
    Par Whitefalcon dans le forum Qt
    Réponses: 2
    Dernier message: 20/01/2013, 12h09
  2. <mx:html> Récupérer le code source d'une page
    Par Nanard_ dans le forum Flex
    Réponses: 0
    Dernier message: 15/01/2009, 09h35
  3. Comment recuperer le code source d une page HTML distante en javascript
    Par herbert dans le forum Général JavaScript
    Réponses: 10
    Dernier message: 26/07/2006, 22h26
  4. [VBA Excel] Récuperer le code source d'une page html dans un string
    Par viniboy dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 26/07/2006, 19h11
  5. Récupérer le code source d'une page web
    Par glRaZ dans le forum C++Builder
    Réponses: 4
    Dernier message: 08/12/2004, 09h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo