Bonjour à tous,
Alors voilà, je suis débutant en Python et pour un projet je dois parser un certain nombre de pages du site www.priceminister.com .
Dans la plupart des cas il n'y a pas de problème, je récupère le code source avec urllib.urlopen et le parse avec BeautifulSoup.
Mais dans certains cas le code source renvoyé pas urllib.urlopen ne correspond pas à se qui est affiché réellement (même si c'est bien le code source renvoyé par le navigateur)...
Voilà un exemple de page posant problème (même le titre de la page ne correspond pas):
Le code que j'aimerais récupérer est celui qui s'affiche en faisant ctrl+A et code source de la sélection (avec firefox), quelqu'un aurait une solution ou saurait d'où vient le problème?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 import urllib from bs4 import BeautifulSoup sock = urllib.urlopen('http://www.priceminister.com/mfp/1000047/nokia-x3-02#pid=250079160') htmlSource = sock.read() sock.close() print(htmlSource)
Merci d'avance!
Partager