IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Format d'échange (XML, JSON...) Java Discussion :

HTML épuré puis transformé en XML


Sujet :

Format d'échange (XML, JSON...) Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Janvier 2006
    Messages
    79
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 79
    Par défaut HTML épuré puis transformé en XML
    Bonjour,

    Je souhaite analyser le contenu de site WEB.
    Pour cela je recupere du code HTML qui présente les infos dans des balises <TABLE>.
    Le code HTML récupéré n'est pas tres clean, dans le sens ou il traine beaucoup d'attribut lié à la présentation des données. ex :
    width="98%" cellpadding="0" cellspacing="0" border=0 align=center
    Un exemple d'infos que je souhaite recuperer se présent comme cela :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    <tr>
    							<td width="142" class=toto align="right">Age</td>
    							<td width="13">&nbsp;</td>
    							<td class=team_players>18&nbsp;ans (6/4/1)</td>
    						</tr>
    Pour cet exemple, je souhaite recuperer la caracteristique : age et sa valeur : 18 ans.

    je cherche à profiter de vos expériences sur l'analyses HTML. Je m'explique, Certaines bibliothèques nettoie et transforme le HTML en XML. Si certains d'entre vous peuvent m'orienter ou m'expliquer comment traiter ce problème

    Merci de votre écoute

  2. #2
    Membre Expert Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Par défaut
    HTML Tidy (http://tidy.sourceforge.net/) est très bien pour faire cela et je l'ai déjà beaucoup utilisé dans ce contexte.

    Voici les options que j'active pour cela :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    --output-xml yes --doctype omit --quote-nbsp no --numeric-entities yes
    Les seuls cas de plantages que j'ai constaté étaient dûs à des balises complètement malformées et inconnues (merci Windev...)

  3. #3
    Membre confirmé
    Inscrit en
    Janvier 2006
    Messages
    79
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 79
    Par défaut
    Ok.

    Je peux utiliser cette bibilotheque directement dans mon code Java ???
    Si oui, est simple à manipuler ?

  4. #4
    Membre Expert Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Par défaut
    Désolé, je ne l'ai utilisé qu'en ligne de commande... C'est une appli assez ancienne, initialement en c++, en cours de réécriture si j'ai bien compris

  5. #5
    Expert confirmé
    Avatar de le y@m's
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2005
    Messages
    2 636
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Février 2005
    Messages : 2 636
    Par défaut
    Il semblerait y avoir un portage Java : JTidy.
    Je ne répondrai à aucune question technique par MP.

    Pensez aux Tutoriels et aux FAQs avant de poster ;) (pour le java il y a aussi JavaSearch), n'oubliez pas non plus la fonction Rechercher.
    Enfin, quand une solution a été trouvée à votre problème
    pensez au tag :resolu:

    Cours Dvp : http://ydisanto.developpez.com
    Blog : http://yann-disanto.blogspot.com/
    Page perso : http://yann-disanto.fr

Discussions similaires

  1. [DOM] transformer un xml en html (en utilisant java)
    Par med_ellouze dans le forum Format d'échange (XML, JSON...)
    Réponses: 9
    Dernier message: 12/08/2010, 14h18
  2. Transformer un XML en documentation HTML
    Par vbourjac dans le forum XML/XSL et SOAP
    Réponses: 4
    Dernier message: 07/04/2008, 17h16
  3. [XSLT] Transformer un xml en HTML : problème sur les liens
    Par elhout dans le forum XSL/XSLT/XPATH
    Réponses: 2
    Dernier message: 19/03/2007, 10h46
  4. [XSLT][>HTML] transformer un XML
    Par ouiam dans le forum XSL/XSLT/XPATH
    Réponses: 11
    Dernier message: 25/07/2006, 17h59
  5. [XSLT] Xml validé XSD puis transformé via XSLT
    Par cash3000 dans le forum XSL/XSLT/XPATH
    Réponses: 1
    Dernier message: 16/06/2006, 12h09

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo