Bonsoir à tous;

J'aimerai pouvoir entamer la programmation d'une chaine de prétraitements de texte ou Corpus (découpage du texte en termes, établissement d’index, Lemmatisation, stemmatisation, collocation etc.) pour le français, sous Java. Après quelques recherches, j'ai pris connaissance de l'existence du framework UIMA.

Ma question est justement de savoir (pour les gens l'ayant déjà utilisé), si UIMA est réellement intéressant pour ce genre de tâche (prétraitements)?

OpenNLP serait-il adapté lui aussi pour ce genre de prétraitement de texte en français ?

Merci