Parsage et nettoyage HTML
Bonsoir,
Dans mon application, je télécharge une page web afin de la parser pour en extraire des infos.
Dans cette page ce trouve l'élément suivant :
Code:
<input type='hidden' name='cler' value='blabla'>
Suite à mes recherches, j'ai trouvé qu'on pouvait utiliser l'API BeautifulSoup
Ce qui devrait donner ceci :
Code:
1 2
| soup = BeautifulSoup(page_web)
cle = soup.find('input',name='cler',type='hidden') |
Seulement le code html que je récupère est sale, du coup BeautifulSoup a beau être costaud, il plante lamentablement :
Code:
HTMLParser.HTMLParseError: junk characters in start tag: u'[0]>',
J'ai lu que l'on pouvait nettoyer le code avec l'API tidy, j'ai donc écrit :
Code:
tidied=tidy.parseString(page_web)
L'embêtant c'est que la variable tidied est un document de type tidy est que je n'arrive pas à m'en servir avec beautifulSoup.
Avez-vous une solution ?
Merci.