Bonjour,
Voila mon problème:
Je dois extraire de cette page les noms des pathways dispo ainsi que l'url vers le fichier xml associé (genre Glycolysis / Gluconeogenesis; http://www.genome.jp/kegg/KGML/KGML_.../map00010.xml).
Pour l'instant ce que j'ai fait (un peu en bricolant avec String) c'est de lire le fichier html ligne par ligne, et si la ligne m'intéresse récupérer l'info qui m'intéresse. C'est pas super propre et en plus si la page HTML change de structure (ne serait-ce qu'un saut de ligne) mon code pourrait ne plus fonctionner.
Solution -> Parser le fichier HTML avec Swing
Le soucis c'est que je n'y arrive pas... Ca me met l'exception: javax.swing.text.ChangedCharSetException (ca semble du àdans le code html. Bref j'ai cherché et trouvé une solution: créer un HTMLDocument et y appliquer putProperty("IgnoreCharsetDirective", new Boolean(true));<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
Seulement maintenant que faire de ce document pour que je puisse le parser!
Si vous avez déjà fait ca j'suis preneur d'un bout de code parce que la je trouve vraiment pas comment faire![]()
Bon c'est sur que je pourrais utiliser une API genre Jericho HTML parser mais c'est tellement un truc tout con ce que j'ai besoin de faire que j'ai pas trop envie d'importer une API juste pour ca...
Merci bien![]()
Partager