Bonjour,
Je fais partie d'une ONG humanitaire. Pour gérer les projets réalisés sur le terrain, le siège (aux USA) a mis en place un Extranet où sont publiés des rapports sur ces projets. chaque donateur en France participant au financement d'un projet a droit à un rapport en français sur celui-ci. le souci que nous avons est que les rapports sont en anglais. notre bureau en France doit les traduire. Nous n'avons pas accés à la base de données où sont stockés les rapports en brute (pas en page html). c'est en accédant à un rapport que celui-ci est généré à la volée (scripts ASP de MS).
actuellement, nous procédons par des copier-coller des rapports générés dans Word un par un. puis les envoyer aux bénévoles pour la traduction.
c'est fastidieux et pénible et ça consomme beaucoup de notre temps.
en attendant les jours meilleurs j'ai pensé à écrire un programme en Java qui récupére le code source en html des rapports, parse le fichier html pour récupérer les données voulues et les mettre dans un fichier Excel.
le modèle approximatif du fichier html est le suivant:
<table >
<tr>
<td>
<fieldset><legend><strong>Titre1</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 1
Information concernant le titre n° 1
Information concernant le titre n° 1
</td>
</tr>
</table>
</fieldset>
</td>
<td>
<fieldset><legend><strong>Titre2</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 2
Information concernant le titre n° 2
Information concernant le titre n° 2
</td>
</tr>
</table>
</fieldset>
</td>
</tr>
<tr>
<td>
<fieldset><legend><strong>Titre3</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 3
Information concernant le titre n° 3
Information concernant le titre n° 3
</td>
</tr>
</table>
</fieldset>
</td>
<td>
<fieldset><legend><strong>Titre4</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 4
Information concernant le titre n° 4
Information concernant le titre n° 4
</td>
</tr>
</table>
</fieldset>
</td>
</tr>
<tr>
<td>
<fieldset><legend><strong>Titre5</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 5
Information concernant le titre n° 5
Information concernant le titre n° 5
</td>
</tr>
</table>
</fieldset>
</td>
<td>
<fieldset><legend><strong>Titre6</strong></legend>
<table>
<tr>
<td>
Information concernant le titre n° 6
Information concernant le titre n° 6
Information concernant le titre n° 6
</td>
</tr>
</table>
</fieldset>
</td>
</tr>
</table>
donc je voudrai avoir en sortie un fichier Excel qui a six colonnes (Titre1, Titre2, Titre3, Titre4, Titre5, Titre6)
et au dessous de chaque titre les informations le concernant.
comment peut-on parser (extraire des informations voulues) d'un fichier HTML en Java?
Merci d'avance
Partager