Bonsoir à tous,
dans le but d'analyser du texte avec la librairie NLTK, j'essaye de construire un pattern à l'aide d'expressions régulières.
Or, j'ai du mal à saisir comment fonctionne vraiment une regex. En effet, le pattern ci-dessous marche très bien avec les 2 1eres lignes, mais ne trouve plus rien lorsqu'on rajoute la 3ème (regex pour détecter les abbréviations):
1 2 3 4 5 6 7
|
regEx = r'''(?x)
\w+ # mots simples
| [^\w]\d+[\.,]\d* # nombres entiers ou décimaux
| ([a-z]\.)+ #abbréviations
'''
re.findall(regEx, txt) |
Voici le texte que j'essaye d'analyser:
txt = "Voici un texte e.n français.[] J'essaye de pré-traiter à l'aide de nltk.T2NMx. mesures: 3,2 g/l, 10mm², 10 m.s. avec des %, 10% 5 %. 20/11/1990 "
Je pense que c'est un problème de "match" (si un match est trouvé avec la 1ere ligne de ma regex, alors les lignes derrières les | (ou logique) ne sont pas analysées?), mais je débute dedans alors si vous pouviez me donner des détails de pourquoi ça bug, et des pistes pour savoir comment "mimer" mon pattern de regex et obtenir un résultat, je vous en serai éternellement reconnaissant
Partager