Bonjour,

Je souhaite analyser le contenu de site WEB.
Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :
width="98%" cellpadding="0" cellspacing="0" border=0 align=center
Un exemple d'infos que je souhaite recuperer se présent comme cela :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
<tr>
							<td width="142" class=toto align="right">Age</td>
							<td width="13">&nbsp;</td>
							<td class=team_players>18&nbsp;ans (6/4/1)</td>
						</tr>
Pour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.

je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème

Merci de votre écoute