IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

aide pattern regex


Sujet :

Python

  1. #1
    Membre averti
    Homme Profil pro
    geek
    Inscrit en
    Mai 2017
    Messages
    44
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : geek
    Secteur : Industrie

    Informations forums :
    Inscription : Mai 2017
    Messages : 44
    Par défaut aide pattern regex
    bonjour
    j'ai des fichiers contenant ce genre d'informations
    XYZ=29904/2660/1412 XYZ=29904/2728/1368
    2 positions XYZ, séparées par un espace


    mais j'ai aussi cela
    XYZ=29904/2660/1412
    XYZ=29904/2728/1368
    2 positions séparées par un CR

    j'arrive a les détecter avec ce pattern, qui fonctionne parfaitement pour le 2ème cas
    XYZ.*

    mais ce n'est pas le top pour le premier exemple

    quel pattern utiliseriez vous sachant que :
    j'ai toujours XYZ au début
    suivi de = (parfois avec des espaces)
    et de 3 valeurs, parfois avec des points
    et de 2 séparateurs /

  2. #2
    Membre éprouvé Avatar de olivier1969
    Homme Profil pro
    Assistant aux utilisateurs
    Inscrit en
    Novembre 2013
    Messages
    153
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Assistant aux utilisateurs
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Novembre 2013
    Messages : 153
    Par défaut
    Bonjour,

    ça manque un peu de code , et qu'essaies tu de faire exactement avec tes chaines de caractère ?

  3. #3
    Membre averti
    Homme Profil pro
    geek
    Inscrit en
    Mai 2017
    Messages
    44
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : geek
    Secteur : Industrie

    Informations forums :
    Inscription : Mai 2017
    Messages : 44
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     
                loc=[]
                fichier = open(fic,"r")
                for line in fichier:
                    loc = loc + re.findall(r"XYZ[ ]{0,1}=[ ]{0,1}.{1,18}/.{1,8}/.{1,5}", line)
                    #loc = loc + re.findall(r"XYZ.*", line)
                try:
                    for pos in loc:
                        pos = re.sub(r'[a-zA-Z=,;:)( ]', '', pos)
     
                        print pos
     
                        x=pos.split("/")[0][0:8]#[4:].replace("=","")
                        y=pos.split("/")[1][0:8]
                        z=pos.split("/")[2][0:8]
    Bonjour
    je cherche a détecter les séquence XYZ=dddd/dddd/dddd
    je les met dans une liste
    puis je supprime le début, les caractères parasite qu'il pourrait y avoir
    j'obtient cela

    dddd/dddd/dddd

    voici un exemple de ce qui peut être détecté
    XYZ=1324/1325/5689
    XYZ=1324.1212/1325.1212/5689.4511

    XYZ = 1324/1325/5689
    XYZ = 1324.1212/1325.1212/5689.4511

    XYZ=1324/45/5689
    XYZ = 1324.1212/45/5689.4511

    XYZ=-1324/1325/5689
    XYZ=1324.1212/1325.1212/-5689.4511

    XYZ = 1324/1325/5689
    XYZ = 1324.1212/-1325.1212/5689.4511

    XYZ=1324/45/5689 XYZ=1324.1212/45/5689.4511

    XYZ=14455/45/56 XYZ=1324.1212/45/5689.4511
    XYZ=1324.1212/45/5689.4511 XYZ=14455/45/56

  4. #4
    Membre Expert Avatar de tsuji
    Inscrit en
    Octobre 2011
    Messages
    1 558
    Détails du profil
    Informations forums :
    Inscription : Octobre 2011
    Messages : 1 558
    Par défaut
    Le domaine qui peut être matché par le point (.) est très grand y compris le caractère /, donc .{1,18}, .{1,5} et .{1,8}, par exemple, qui sont 'greedy', peuvent déranger tous les matches après ... On peut stopper la 'greediness' en ajoutant un point d'interrogation juste après, mais on peut faire autrement aussi (voir plus bas).

    Le minimum qu'on peut faire pour sauver le pattern est comme ça. (On peut toujours l'améliorer après et à partir de ça.)
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
        #loc = loc + re.findall(r"XYZ[ ]{0,1}=[ ]{0,1}[^/]{1,18}/[^/]{1,8}/[^/]{1,5}", line)
        loc = loc + re.findall(r"XYZ\s?=\s?[^/]+/[^/]+/[^\s]+", line)
    Et puis, on peut éviter de faire ce genre de chose par améliorer le pattern
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
            pos = re.sub(r'[a-zA-Z=,;:)( ]', '', pos)
    . Cette manipulation semble assez terrible juste pour éliminer XYZ.

    Et puis, faisant [0:8] ne semble pas bien suffisant pour bien des cas, mais c'est facile à corriger.

  5. #5
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    salut,

    sur une base identique à ce que propose tsuji, je propose la tournure suivante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    import re
     
    with open('fichier.txt', 'r') as f:
        content = f.read()
     
    loc = re.findall(r'XYZ\s*=\s*([\d.]+)/([\d.]+)/([\d.]+)', content)
     
    for x,y,z in loc:
        print (f'X={x}, Y={y}, Z={z}')
    pour précision, le . quand il est à l'intérieur d'une énumération [...] ne match bien que le point (\.) et non "n'importe quel caractère" comme c'est le cas dans le reste de la regexp

Discussions similaires

  1. [Python 3.X] aide pour pattern REGEX
    Par daniel-12 dans le forum Général Python
    Réponses: 17
    Dernier message: 27/03/2019, 13h42
  2. Aide pattern regex
    Par -N4w4k- dans le forum C#
    Réponses: 2
    Dernier message: 23/03/2013, 23h11
  3. [Pattern][Regex] vérifier que mon email est valide
    Par anitshka dans le forum Collection et Stream
    Réponses: 7
    Dernier message: 23/05/2011, 13h03
  4. Aide pour Regex sur URL un peu spécial
    Par poppyto dans le forum Général JavaScript
    Réponses: 2
    Dernier message: 01/12/2008, 13h21
  5. Aide sur Regex
    Par Caponord38 dans le forum Langage
    Réponses: 2
    Dernier message: 29/02/2008, 20h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo