IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement Web en Java Discussion :

extraction des informations à partir d'une page web


Sujet :

Développement Web en Java

  1. #1
    Membre du Club
    Inscrit en
    Novembre 2009
    Messages
    68
    Détails du profil
    Informations forums :
    Inscription : Novembre 2009
    Messages : 68
    Points : 56
    Points
    56
    Par défaut extraction des informations à partir d'une page web
    salut,

    j'ai un mini-projet qui consiste à créer un programme en java qui permet d'extraire des informations(tableau et liste) à partir d'une page web et les convertir en xml.

    Pour etre mieux claire, le programme doit parser tout le code html et detecter par exemple
    le debut et la fin d'un tableau (à l'aide des balises) et les convertir en xml.

    Je veux savoir quelle API pourra me servir pour l'extraction , ou si vous connaissez un lien vers un document qui pourra m'aider.

    Merci d'avance.

  2. #2
    Membre expérimenté

    Inscrit en
    Décembre 2004
    Messages
    584
    Détails du profil
    Informations forums :
    Inscription : Décembre 2004
    Messages : 584
    Points : 1 374
    Points
    1 374
    Par défaut
    salut

    regarde du côté de jtidy, cette librairie permettant tant de nettoyer une page html que, me semble t il, de la convertir en xhtml (qui est de l'xml donc ).

    ++
    Merci d'utiliser le bouton [Résolu] pour les sujets qui le sont.
    [pub]mon blog franco anglais, article du moment: Wicket: fournir des données JSON via Ajax[/pub]

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    43
    Détails du profil
    Informations personnelles :
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 43
    Points : 46
    Points
    46
    Par défaut
    Salut,

    regarde cet outil, il m'a servi lors d'un projet...
    http://web-harvest.sourceforge.net/


  4. #4
    Membre expert

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Janvier 2004
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2004
    Messages : 2 301
    Points : 3 675
    Points
    3 675
    Par défaut
    j'ajouterais "HttpClient", de apache commons, pour éventuellement se logger sur la page web et manipuler les cookies, etc...

    "Le plug gros problème des citations trouvées sur internet, c'est qu'on ne peut jamais garantir leur authenticité"

    Confucius, 448 av. J-C

  5. #5
    Membre actif Avatar de jiddou
    Inscrit en
    Août 2007
    Messages
    247
    Détails du profil
    Informations forums :
    Inscription : Août 2007
    Messages : 247
    Points : 251
    Points
    251
    Par défaut
    Jtidy est ton ami

  6. #6
    Expert éminent sénior

    Avatar de fearyourself
    Homme Profil pro
    Ingénieur Informaticien Senior
    Inscrit en
    Décembre 2005
    Messages
    5 121
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Ingénieur Informaticien Senior
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2005
    Messages : 5 121
    Points : 11 877
    Points
    11 877
    Par défaut
    En fait, Fridi, on a fait un peu compliqué je pense sur le chat. J'y ai pensé hier soir :-)

    Nous on a fait :

    Passage de HTML vers structure Java

    pour ensuite faire

    Passage de la structure Java vers XML


    Mais lorsque j'ai réfléchi, je me suis dit que sûrement la traduction HTML vers XML d'un tableau est direct.

    Il suffit de transformer les balises quand on les lit et seulement afficher lorsque nous sommes dans le tableau.

    On pourra en discuter sur le chat la prochaine fois que t'es connecté et tu pourras décider entre : finir le projet comme on l'a fait (ca ne coûte plus rien de le finir comme ca) ou le simplifier pour le faire comme je le dis ici.

    Bon courage,
    Jc

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraction des scripts contenus dans une page web
    Par hackoofr dans le forum VBScript
    Réponses: 13
    Dernier message: 10/07/2012, 22h29
  2. Réponses: 4
    Dernier message: 08/02/2011, 10h13
  3. extraction des information à partir d'une page web
    Par sitws dans le forum Débuter avec Java
    Réponses: 1
    Dernier message: 07/01/2010, 11h20
  4. generer des graphs birt a partir d'une page web
    Par me_yassine dans le forum BIRT
    Réponses: 3
    Dernier message: 12/05/2007, 23h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo