IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

API standards et tierces Java Discussion :

récuperer des données à partir d'un fichier écrit en HTML


Sujet :

API standards et tierces Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Novembre 2005
    Messages
    84
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2005
    Messages : 84
    Par défaut récuperer des données à partir d'un fichier écrit en HTML
    Bonjour,

    Je fais partie d'une ONG humanitaire. Pour gérer les projets réalisés sur le terrain, le siège (aux USA) a mis en place un Extranet où sont publiés des rapports sur ces projets. chaque donateur en France participant au financement d'un projet a droit à un rapport en français sur celui-ci. le souci que nous avons est que les rapports sont en anglais. notre bureau en France doit les traduire. Nous n'avons pas accés à la base de données où sont stockés les rapports en brute (pas en page html). c'est en accédant à un rapport que celui-ci est généré à la volée (scripts ASP de MS).
    actuellement, nous procédons par des copier-coller des rapports générés dans Word un par un. puis les envoyer aux bénévoles pour la traduction.
    c'est fastidieux et pénible et ça consomme beaucoup de notre temps.

    en attendant les jours meilleurs j'ai pensé à écrire un programme en Java qui récupére le code source en html des rapports, parse le fichier html pour récupérer les données voulues et les mettre dans un fichier Excel.

    le modèle approximatif du fichier html est le suivant:

    <table >

    <tr>

    <td>
    <fieldset><legend><strong>Titre1</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 1
    Information concernant le titre n° 1
    Information concernant le titre n° 1
    </td>
    </tr>
    </table>
    </fieldset>
    </td>

    <td>
    <fieldset><legend><strong>Titre2</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 2
    Information concernant le titre n° 2
    Information concernant le titre n° 2
    </td>
    </tr>
    </table>
    </fieldset>
    </td>

    </tr>

    <tr>

    <td>
    <fieldset><legend><strong>Titre3</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 3
    Information concernant le titre n° 3
    Information concernant le titre n° 3
    </td>
    </tr>
    </table>
    </fieldset>
    </td>

    <td>
    <fieldset><legend><strong>Titre4</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 4
    Information concernant le titre n° 4
    Information concernant le titre n° 4
    </td>
    </tr>
    </table>
    </fieldset>

    </td>
    </tr>

    <tr>
    <td>
    <fieldset><legend><strong>Titre5</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 5
    Information concernant le titre n° 5
    Information concernant le titre n° 5
    </td>
    </tr>
    </table>
    </fieldset>
    </td>

    <td>
    <fieldset><legend><strong>Titre6</strong></legend>
    <table>
    <tr>
    <td>
    Information concernant le titre n° 6
    Information concernant le titre n° 6
    Information concernant le titre n° 6
    </td>
    </tr>
    </table>
    </fieldset>
    </td>

    </tr>
    </table>



    donc je voudrai avoir en sortie un fichier Excel qui a six colonnes (Titre1, Titre2, Titre3, Titre4, Titre5, Titre6)

    et au dessous de chaque titre les informations le concernant.

    comment peut-on parser (extraire des informations voulues) d'un fichier HTML en Java?

    Merci d'avance

  2. #2
    Membre confirmé
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    145
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 145
    Par défaut
    salut,

    si le html généré est suffisamment propre, tu peux considérer que c'est une structure XML que tu peux parser facilement.

  3. #3
    Expert confirmé
    Avatar de sinok
    Profil pro
    Inscrit en
    Août 2004
    Messages
    8 765
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Août 2004
    Messages : 8 765
    Par défaut
    Sinon il existe des parsers HTML, à toi de voire si ils suffisent à tes besoins: http://www.java-source.net/open-source/html-parsers

Discussions similaires

  1. Réponses: 0
    Dernier message: 09/03/2010, 20h17
  2. [Débutante] Extraire des données à partir d'un fichier html avec xsl
    Par sab_etudianteBTS dans le forum XSL/XSLT/XPATH
    Réponses: 3
    Dernier message: 11/03/2008, 09h10
  3. Réponses: 1
    Dernier message: 21/09/2007, 12h10
  4. extraire des données à partir d'un fichier texte
    Par bigplayer dans le forum Langage
    Réponses: 3
    Dernier message: 03/04/2007, 21h33
  5. Réponses: 8
    Dernier message: 22/08/2006, 12h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo