HTML épuré puis transformé en XML
Bonjour,
Je souhaite analyser le contenu de site WEB.
Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :
Citation:
width="98%" cellpadding="0" cellspacing="0" border=0 align=center
Un exemple d'infos que je souhaite recuperer se présent comme cela :
Code:
1 2 3 4 5
| <tr>
<td width="142" class=toto align="right">Age</td>
<td width="13"> </td>
<td class=team_players>18 ans (6/4/1)</td>
</tr> |
Pour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.
je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème
Merci de votre écoute