HTML épuré puis transformé en XML

**kdick** · 20/04/2007, 12h08

Bonjour,

Je souhaite analyser le contenu de site WEB.
Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :

width="98%" cellpadding="0" cellspacing="0" border=0 align=center

Un exemple d'infos que je souhaite recuperer se présent comme cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
<tr>
							<td width="142" class=toto align="right">Age</td>
							<td width="13">&nbsp;</td>
							<td class=team_players>18&nbsp;ans (6/4/1)</td>
						</tr>

Pour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.

je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème

Merci de votre écoute

**alain.couthures** · 20/04/2007, 13h21

HTML Tidy (http://tidy.sourceforge.net/) est très bien pour faire cela et je l'ai déjà beaucoup utilisé dans ce contexte.

Voici les options que j'active pour cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

--output-xml yes --doctype omit --quote-nbsp no --numeric-entities yes

Les seuls cas de plantages que j'ai constaté étaient dûs à des balises complètement malformées et inconnues (merci Windev...)

**kdick** · 20/04/2007, 14h58

Ok.

Je peux utiliser cette bibilotheque directement dans mon code Java ???
Si oui, est simple à manipuler ?

**alain.couthures** · 20/04/2007, 15h09

Désolé, je ne l'ai utilisé qu'en ligne de commande... C'est une appli assez ancienne, initialement en c++, en cours de réécriture si j'ai bien compris

**le y@m's** · 20/04/2007, 15h24

Il semblerait y avoir un portage Java : JTidy.

HTML épuré puis transformé en XML

Format d'échange (XML, JSON...) Java

Vue hybride

Discussions similaires

Partager

Partager