aide pour pattern REGEX

**daniel-12** · 10/03/2019, 23h35

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
import re
 
with open("extract.txt", "r", ) as fic:
    for test_str in fic:
        r1 = re.findall(r"[D]\d+[.| ]{0,1}\d+[.| ]{0,1}\d+", test_str)
        if len(r1) == 1:
            print (r1)

Bonsoir
je cherche a extraire des séquences de caractères écrites sous cette forme
idéalement c'est ca:
D12312345123 (1lettre, 3+5+3 chiffres)

mais le texte peut aussi contenir des choses écrites différemment comme
D123-12345.123
d123.12345123
D123 12345 123
ou des choses incorrectes, incomplètes
D12-12345.123

Comment écririez vous le pattern regex, pour tout détecter ?

**flapili** · 11/03/2019, 00h03

Une façon simple serais que de plutôt vérifier pour beaucoup trop de cas difficilement généralisable en 1regex de dans un premier temps enlever tout ce qui n'est ni lettre ni chiffre, puis après de vérifier que la chaine correspond bien au pattern 1 lettre 3+5+3 chiffres

Sinon l'opérateur ? Équivaut à {0,1}, une fois les caractères superflus enlevés le pattern sera [a-Z]\d{8}

**Fifan31** · 11/03/2019, 10h43

Bonjour,

Je plusoie flapili à un détail près: s'il y a toujours un séparateur entre les groupes de chiffres et que ces groupes ont un sens, supprimer tout ce qui n'est pas lettre ou chiffre avec des choses incorrectes peut amener à des faux positifs.
Ex: D12.345-986523
Tu peux essayer

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

r'([a-zA-Z])(\d{3})[. -]?(\d{5})[. -]?(\d{3})'

**CosmoKnacki** · 11/03/2019, 10h56

Envoyé par flapili

Sinon l'opérateur ? Équivaut à {0,1}, une fois les caractères superflus enlevés le pattern sera [a-Z]\d{8}

Par contre [a-Z] (de même que [A-z]) n'équivaut pas du tout à [a-zA-Z], c'est même un intervalle invalide car le caractère a est situé après le caractère Z dans la table ascii.

Un petit test: re.findall(r'[A-z]', '[\]^_`')

Envoyé par daniel-12

[.| ]

Dans une classe de caractères, le | perd son sens spécial et ne signifie plus OR. D'une manière générale, les caractères avec un sens spécial dans la pattern le perdent dans les classes de caractères et sont vus comme de simples caractères, mis à part l'antislash. En revanche les classes de caractères ont des caractères spéciaux qui leur sont propres: ^ - ].

**flapili** · 11/03/2019, 14h16

En effet j'était sur portable je suis allez un peu vite

**daniel-12** · 11/03/2019, 16h07

Merci a tous pour vos réponses. je vais les tester.

j'ai l'impression que les regex fait sous VBA et python, sont écrit légèrement différemment
je me trompe?

et le site regex101 pour les test, il vous semble fiable ?

**CosmoKnacki** · 11/03/2019, 17h05

Les regex VBA (VBScript) et Python ont exactement la même syntaxe (héritée de Perl 5 comme énormément de langages), les différences sont plutôt en terme de fonctionnalités disponibles, par exemple les regex VBA n'ont pas de test arrière entre autres. Si tu veux de l'exotisme en matière de syntaxe et de comportement essaie grep (qui utilise par défaut la syntaxe BRE) ou Perl 6 (qui a une toute nouvelle syntaxe).

regex101 est un très bon outil, bien sûr il faut veiller à choisir le bon langage avant de commencer.

aide pour pattern REGEX

Python

Vue hybride

Discussions similaires

Partager

Partager