Bonsoir à tous.
Je bosse sur un projet de reprise de données d'un site web et je me trouve confronté à un problème de récupération des données.
Les fichiers étant en HTML et les données étant parfois disposées aléatoirement, je souhaiterais travailler par l'intermédiaire de chemins XPATH.
Mais un problème se pose car les fichiers HTML ont des balises non fermantes.
Pour cela je pensais utiliser Mozilla HTML Parser mais des librairies posent problème... De plus, étant débutant en java, je suis relativement perdu...

Néanmois, meme avec un parser efficace la récupération des données risque d'être délicate... Quelqu'un aurait-il déjà travaillé sur un sujet similaire ?

Peu habitué du forum, je tiens à dire que j'ai essayé de trouver quelque chose mais cela fait quelques jours que je stagne et que je ne sais pas du tout comment partir, donc si quelqu'un avait des pistes, ça m'aiderait bien

Merci d'avance !