Bonjour
je travail sur l'extraction d'information à partir d'un fichier html

la première étape étais de transformer le fichier html en texte puis supprimer toutes les balises pour obtenir un texte nettoyé
tout ça avec java
la deuxième étape est d'écrire une grammaire en java qui lis -à partir du fichier nettoyé- les mots mot par mot et faire une recherche dans un dictionnaire pour indiquer le sens du mot
par exemple si le mots est RAM sa va être étiquetté par 'matériel'


ma question et comment utiliser html parser (htmlparser.sourceforge.net) pour réaliser cette première étape.

et comment j'écris une grammaire en java ayant comme entrée un texte est donne en sortie un texte étiquetté mot par mot

merci de m'aider