HTML épuré puis transformé en XML

Version imprimable

20/04/2007, 13h08
kdick

HTML épuré puis transformé en XML
Bonjour,

Je souhaite analyser le contenu de site WEB.
Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :

Citation:

width="98%" cellpadding="0" cellspacing="0" border=0 align=center

Un exemple d'infos que je souhaite recuperer se présent comme cela :
Code:

1 2 3 4 5 <tr> <td width="142" class=toto align="right">Age</td> <td width="13"> </td> <td class=team_players>18 ans (6/4/1)</td> </tr>
Pour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.

je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème

Merci de votre écoute
20/04/2007, 14h21
alain.couthures

HTML Tidy (http://tidy.sourceforge.net/) est très bien pour faire cela et je l'ai déjà beaucoup utilisé dans ce contexte.

Voici les options que j'active pour cela :

Code:

--output-xml yes --doctype omit --quote-nbsp no --numeric-entities yes

Les seuls cas de plantages que j'ai constaté étaient dûs à des balises complètement malformées et inconnues (merci Windev...)
20/04/2007, 15h58
kdick

Ok.

Je peux utiliser cette bibilotheque directement dans mon code Java ???
Si oui, est simple à manipuler ?
20/04/2007, 16h09
alain.couthures

Désolé, je ne l'ai utilisé qu'en ligne de commande... C'est une appli assez ancienne, initialement en c++, en cours de réécriture si j'ai bien compris
20/04/2007, 16h24
le y@m's

Il semblerait y avoir un portage Java : JTidy.