Identification de ligne par regex
Bonjour,
je cherche à lire un fichier texte en ne sélectionnant que certaines lignes.
Pour celà, je pense utiliser une expression régulière. J'ai actuellement :
Code:
1 2 3 4 5 6 7 8
| String reg = "(?i)(?s)\\t(DET|ART|PRP|KON|PRO|DEM)";
Pattern p = Pattern.compile(reg);
while((line = br.readLine()) != null) {
Matcher m = p.matcher(line);
if(!m.matches()) {
list.add(line.split(SEPARATEUR));
}
} |
Mon fichier texte a cette allure (généré par TreeTagger) :
Citation:
liberté NOM liberté
certains PRO:IND certain
termes NOM terme
répandus VER:pper répandus
comme KON comme
piratage NOM piratage
comportent VER:pres comporter
des PRP:det du
idées NOM idées
auxquelles PRO:REL auquel
nous PRO:PER nous
espérons VER:futu espérons
que KON que
vous PRO:PER vous
n' ADV ne
adhérerez VER:futu adhérerez
pas ADV pas
Je cherche à supprimer les mots « sans sens » (articles...).
La regex utilisée actuellement ne détecte rien... et je ne comprends pas pourquoi.
Merci pour votre aide !
Alban