Bonjour,
Je souhaite analyser le contenu de site WEB.
Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :Un exemple d'infos que je souhaite recuperer se présent comme cela :width="98%" cellpadding="0" cellspacing="0" border=0 align=centerPour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.
Code : Sélectionner tout - Visualiser dans une fenêtre à part 
2
3
4
5
je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème
Merci de votre écoute

 

 
		
		 
        

 
			
			



 HTML épuré puis transformé en XML
 HTML épuré puis transformé en XML
				 Répondre avec citation
  Répondre avec citation

 
			 
   
 
  
  
  
 
 
			 
 
Partager