Parsage et nettoyage HTML

**Gamoth** · 28/04/2010, 22h29

Bonsoir,
Dans mon application, je télécharge une page web afin de la parser pour en extraire des infos.
Dans cette page ce trouve l'élément suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<input type='hidden' name='cler' value='blabla'>

Suite à mes recherches, j'ai trouvé qu'on pouvait utiliser l'API BeautifulSoup
Ce qui devrait donner ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
soup = BeautifulSoup(page_web)
 cle = soup.find('input',name='cler',type='hidden')

Seulement le code html que je récupère est sale, du coup BeautifulSoup a beau être costaud, il plante lamentablement :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

HTMLParser.HTMLParseError: junk characters in start tag: u'[0]>',

J'ai lu que l'on pouvait nettoyer le code avec l'API tidy, j'ai donc écrit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

tidied=tidy.parseString(page_web)

L'embêtant c'est que la variable tidied est un document de type tidy est que je n'arrive pas à m'en servir avec beautifulSoup.

Avez-vous une solution ?
Merci.

**Pierre Maurette** · 27/05/2010, 09h21

Bonjour,

Je tombe par hasard sur votre message, un peu tard sans doute. J'ai une appli basée sur BeautifulSoup, et j'y trouve ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def tidy_preprocess(html, options=None):
    """Traîte un HTML (str) par Tidy et renvoie un HTML (str). Un dictionnaire d'options 
    Tidy peut être passé, sinon les options en dur dans le code seront utilisées.
    
    @Param html: une str, le HTML à traiter.
    @Param options: un dict, options pour Tidy .
    
    @Return: le HTML (str) traité par Tidy.
    
    """
    if not options:#options à éditer
        options = { "enclose-text": 1,
                    "drop-empty-paras": 1
                    }        
 
    return str(tidy.parseString(html, **options)) #IGNORE:W0142

La solution semble donc pour vous d'écrire tout simplement:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

tidied = str(tidy.parseString(page_web))

ATTENTION ! c'est sans garantie, il se trouve que j'ai mis le prétraitement Tidy en commentaire, je ne sais plus pourquoi.

**Gamoth** · 27/05/2010, 09h37

Merci de ta réponse, j'avais trouvé une alternative, j'ai oublié de la poster :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
from lxml import etree
html= etree.HTML(sale_html)
result = etree.tostring(html, pretty_print=True, method="html")
soup = BeautifulSoup(result)
cle= soup.find(attrs={"name" :"cler"})
value=cle.attrs[2][1]

Parsage et nettoyage HTML

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager