combiner plusieurs regex

Bonsoir à tous,

dans le but d'analyser du texte avec la librairie NLTK, j'essaye de construire un pattern à l'aide d'expressions régulières.
Or, j'ai du mal à saisir comment fonctionne vraiment une regex. En effet, le pattern ci-dessous marche très bien avec les 2 1eres lignes, mais ne trouve plus rien lorsqu'on rajoute la 3ème (regex pour détecter les abbréviations):
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
 
regEx = r'''(?x)
    \w+              # mots simples
  | [^\w]\d+[\.,]\d* # nombres entiers ou décimaux
  | ([a-z]\.)+       #abbréviations
'''
re.findall(regEx, txt)
Voici le texte que j'essaye d'analyser:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
txt = "Voici un texte e.n français.[] J'essaye de pré-traiter à l'aide de nltk.T2NMx. mesures: 3,2 g/l, 10mm², 10 m.s. avec des %, 10% 5 %. 20/11/1990 "
Je pense que c'est un problème de "match" (si un match est trouvé avec la 1ere ligne de ma regex, alors les lignes derrières les | (ou logique) ne sont pas analysées?), mais je débute dedans alors si vous pouviez me donner des détails de pourquoi ça bug, et des pistes pour savoir comment "mimer" mon pattern de regex et obtenir un résultat, je vous en serai éternellement reconnaissant

combiner plusieurs regex

Python

Mode arborescent

Discussions similaires

Partager

Partager