Extraire d'un fichier HTML

Bonjour,

Voila mon problème:
Je dois extraire de cette page les noms des pathways dispo ainsi que l'url vers le fichier xml associé (genre Glycolysis / Gluconeogenesis; http://www.genome.jp/kegg/KGML/KGML_.../map00010.xml).

Pour l'instant ce que j'ai fait (un peu en bricolant avec String) c'est de lire le fichier html ligne par ligne, et si la ligne m'intéresse récupérer l'info qui m'intéresse. C'est pas super propre et en plus si la page HTML change de structure (ne serait-ce qu'un saut de ligne) mon code pourrait ne plus fonctionner.

Solution -> Parser le fichier HTML avec Swing
Le soucis c'est que je n'y arrive pas... Ca me met l'exception: javax.swing.text.ChangedCharSetException (ca semble du à

<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">

dans le code html. Bref j'ai cherché et trouvé une solution: créer un HTMLDocument et y appliquer putProperty("IgnoreCharsetDirective", new Boolean(true));
Seulement maintenant que faire de ce document pour que je puisse le parser!

Si vous avez déjà fait ca j'suis preneur d'un bout de code parce que la je trouve vraiment pas comment faire
Bon c'est sur que je pourrais utiliser une API genre Jericho HTML parser mais c'est tellement un truc tout con ce que j'ai besoin de faire que j'ai pas trop envie d'importer une API juste pour ca...

Merci bien

Extraire d'un fichier HTML

Langage Java

Mode arborescent

Discussions similaires

Partager

Partager