Bonjour à tous.

Dans le cadre d'une création de logiciel, j'ai besoin d'utiliser les composants de GATE (General Architecture for Text Engineering) pour faire de l'extraction de contenu de page HTML, que je récupère et que je traite.
Ceci est facile à faire via l'outil graphique en lui-même mais je souhaite utiliser sa librairie gate.jar dans une application Java.

Je fais donc
mais ensuite, je n'ai aucune idée de quoi faire.

Je ne sais pas comment créer un document, avec un corpus, puis faire des traitements syntaxiques dessus et extraire les données.

Quelqu'un saurait-il m'expliquer comment faire ?

Merci d'avance pour votre aide.