Bonsoir,
Dans mon application, je télécharge une page web afin de la parser pour en extraire des infos.
Dans cette page ce trouve l'élément suivant :
Suite à mes recherches, j'ai trouvé qu'on pouvait utiliser l'API BeautifulSoup
Code : Sélectionner tout - Visualiser dans une fenêtre à part <input type='hidden' name='cler' value='blabla'>
Ce qui devrait donner ceci :
Seulement le code html que je récupère est sale, du coup BeautifulSoup a beau être costaud, il plante lamentablement :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 soup = BeautifulSoup(page_web) cle = soup.find('input',name='cler',type='hidden')
J'ai lu que l'on pouvait nettoyer le code avec l'API tidy, j'ai donc écrit :
Code : Sélectionner tout - Visualiser dans une fenêtre à part HTMLParser.HTMLParseError: junk characters in start tag: u'[0]>',
L'embêtant c'est que la variable tidied est un document de type tidy est que je n'arrive pas à m'en servir avec beautifulSoup.
Code : Sélectionner tout - Visualiser dans une fenêtre à part tidied=tidy.parseString(page_web)
Avez-vous une solution ?
Merci.
Partager