IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

APIs XML Discussion :

JDOM ou XPATH pour récupérer les infos d'un fichier html ?


Sujet :

APIs XML

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Avril 2005
    Messages
    143
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 143
    Par défaut JDOM ou XPATH pour récupérer les infos d'un fichier html ?
    Bonjour,

    Sachant que les balises sont distinguables grâce à des attributs de type class, quel moyen est le plus rapide selon vous entre JDOM et XPATH, afin de récupérer les valeurs affichées ?

    voici un exemple de la page html:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    <td class="tvs_td_numero" headers="train_id_0 numero_id">
        848566			
    </td>
    <td class="tvs_td_originedestination" headers="train_id_0 originedestination_id">
        PARIS-NORD
    </td>
    merci pour vos réponses

  2. #2
    Membre Expert Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Par défaut
    Sauf erreur de ma part, JDOM ne permettra pas de cibler directement les éléments ayant l'attribut en question : il faudra tout parcourir depuis la racine, de fils en fils.

    XPath est là pour permettre de trouver les éléments selon une requête.

    En terme de performances, on peut bien penser que XPath fait, tout de même, bien la même chose, à savoir parcourir toute l'arborescence mais on peut souhaiter que ce soit fait de la manière la plus optimisée possible...

    En conclusion, entre un code concis et supposé efficace et un code plus ou moins long, je choisirais XPath sans hésitation.

    Autre point, êtes-vous sûr à 100% que le code HTML que vous voulez parser est toujours du XML bien formé ? Je vois souvent des pages déclarées XHTML qui, en fait, ne sont même pas bien formées... Je me suis fait une fonction pour forcer cela (actuellement seulement en C# et en PHP, un portage Java devant avoir lieu bientôt), le tout étant téléchargeable sur SourceForge (http://sourceforge.net/projects/light-html2xml).

  3. #3
    Membre confirmé
    Inscrit en
    Avril 2005
    Messages
    143
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 143
    Par défaut
    D'accord, je pense que je vais partir sur XPATH.
    Cependant je n'ai pas encore vérifié si le fichier est bien formé, cela peut empêcher le bon fonctionnement des requêtes XPATH le cas échéant ?

  4. #4
    Membre Expert Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Par défaut
    Si le document n'est pas bien formé, il ne peut même pas être chargé en mémoire !

  5. #5
    Membre confirmé
    Inscrit en
    Avril 2005
    Messages
    143
    Détails du profil
    Informations forums :
    Inscription : Avril 2005
    Messages : 143
    Par défaut
    Oui, je viens de tester et à cause de fonctions javascripts, la construction du Dom plante, il faudrait pouvoir éliminer les parties javascript.

  6. #6
    Membre Expert Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Par défaut
    C'est pour cela que la fonction que j'ai écrite met le contenu des balises script en CDATA.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Comment fait-on pour récupérer les infos d'une image
    Par Mario Rousson dans le forum VB.NET
    Réponses: 4
    Dernier message: 30/11/2011, 14h10
  2. Réponses: 5
    Dernier message: 02/05/2008, 15h28
  3. Réponses: 1
    Dernier message: 30/04/2008, 15h09
  4. Réponses: 3
    Dernier message: 23/05/2007, 23h52
  5. Réponses: 7
    Dernier message: 06/04/2007, 17h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo