Parsage et nettoyage HTML

Version imprimable

28/04/2010, 22h29
Gamoth

Parsage et nettoyage HTML
Bonsoir,
Dans mon application, je télécharge une page web afin de la parser pour en extraire des infos.
Dans cette page ce trouve l'élément suivant :

Code:

<input type='hidden' name='cler' value='blabla'>

Suite à mes recherches, j'ai trouvé qu'on pouvait utiliser l'API BeautifulSoup
Ce qui devrait donner ceci :
Code:

1 2 soup = BeautifulSoup(page_web) cle = soup.find('input',name='cler',type='hidden')
Seulement le code html que je récupère est sale, du coup BeautifulSoup a beau être costaud, il plante lamentablement :

Code:

HTMLParser.HTMLParseError: junk characters in start tag: u'[0]>',

J'ai lu que l'on pouvait nettoyer le code avec l'API tidy, j'ai donc écrit :

Code:

tidied=tidy.parseString(page_web)

L'embêtant c'est que la variable tidied est un document de type tidy est que je n'arrive pas à m'en servir avec beautifulSoup.

Avez-vous une solution ?
Merci.

Bonjour,

Je tombe par hasard sur votre message, un peu tard sans doute. J'ai une appli basée sur BeautifulSoup, et j'y trouve ça:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def tidy_preprocess(html, options=None):
    """Traîte un HTML (str) par Tidy et renvoie un HTML (str). Un dictionnaire d'options 
    Tidy peut être passé, sinon les options en dur dans le code seront utilisées.
    
    @Param html: une str, le HTML à traiter.
    @Param options: un dict, options pour Tidy .
    
    @Return: le HTML (str) traité par Tidy.
    
    """
    if not options:#options à éditer
        options = { "enclose-text": 1,
                    "drop-empty-paras": 1
                    }        
 
    return str(tidy.parseString(html, **options)) #IGNORE:W0142

La solution semble donc pour vous d'écrire tout simplement:

Code:

tidied = str(tidy.parseString(page_web))

ATTENTION ! c'est sans garantie, il se trouve que j'ai mis le prétraitement Tidy en commentaire, je ne sais plus pourquoi.

Merci de ta réponse, j'avais trouvé une alternative, j'ai oublié de la poster :

Code:

1
2
3
4
5
6
from lxml import etree
html= etree.HTML(sale_html)
result = etree.tostring(html, pretty_print=True, method="html")
soup = BeautifulSoup(result)
cle= soup.find(attrs={"name" :"cler"})
value=cle.attrs[2][1]