IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Macros et VBA Excel Discussion :

Capturer un contenu entre balise via RegExp [XL-2013]


Sujet :

Macros et VBA Excel

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 17
    Points : 8
    Points
    8
    Par défaut Capturer un contenu entre balise via RegExp
    Bonsoir à toutes et à tous !

    Je sollicite votre aide pour écrire le pattern d'une regexp en VBA Excel.

    J'ai une chaîne du type :
    Lorem ipsum dolor sit amet, [a]consectetur adipiscing[/a] elit, sed do eiusmod [d]tempor[/d] incididunt ut labore et dolore magna aliqua. Ut enim ad [a]minim[/a] veniam...
    Je souhaite récupérer le contenu entre chaque balise via une seule regexp. En bouclant sur les résultats de la regexp on devrait un avoir un truc du genre :

    $0 = [a]consectetur adipiscing[/a] (avec comme sous-motif "a", "consectetur adipiscing", "[/a]")
    $1 = [d]tempor[/d]
    $2 = [a]minim[/a]

    J'ai essayé ce pattern :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg.Pattern = "\[(\w*)\](.*)(\[/\1\])"
    Mais il me renvoit ça :
    [a]consectetur adipiscing[/a] elit, sed do eiusmod [d]tempor[/d] incididunt ut labore et dolore magna aliqua. Ut enim ad [a]minim[/a]
    J'ai donc essayé d'exclure le motif de fermeture de la balise :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg.Pattern = "\[(\w*)\]([.^(\[/1\])]*)(\[/\1\])"
    Mais ça ne fonctionne pas...

    Des idées ?

    D'avance merci

  2. #2
    Expert éminent sénior Avatar de mercatog
    Homme Profil pro
    Inscrit en
    Juillet 2008
    Messages
    9 435
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations forums :
    Inscription : Juillet 2008
    Messages : 9 435
    Points : 31 877
    Points
    31 877
    Par défaut
    Le pattern "(\[\w+\])(\w*\s*\w*)(\[\/\w+\])"

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    Function Extr(ByVal Tmp As String) As String
    Dim Rg As Object, MT As Object, M As Object
    Dim T As String
     
    Set Rg = CreateObject("vbscript.regexp")
    With Rg
        .IgnoreCase = True
        .Global = True
        .Pattern = "(\[\w+\])(\w*\s*\w*)(\[\/\w+\])"
        If .Test(Tmp) Then
            Set MT = .Execute(Tmp)
            For Each M In MT
                T = T & ";" & M.Value               'Ici avec balises
                'T = T & ";" & M.SubMatches(1)      'Tu peux en faire ce que tu veux
            Next M
        End If
    End With
    Set Rg = Nothing
    If Len(T) > 0 Then Extr = Mid(T, 2)
    End Function
    Cordialement.
    J'utilise toujours le point comme séparateur décimal dans mes tests.

  3. #3
    Membre confirmé
    Homme Profil pro
    conseiller
    Inscrit en
    Janvier 2013
    Messages
    367
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : conseiller
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Janvier 2013
    Messages : 367
    Points : 649
    Points
    649
    Par défaut
    Autre pattern à tester à partir de la fonction proposée par mercatog :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    .Pattern = "\[\w].+?\[/\w]"
    A+

  4. #4
    Expert éminent sénior Avatar de mercatog
    Homme Profil pro
    Inscrit en
    Juillet 2008
    Messages
    9 435
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations forums :
    Inscription : Juillet 2008
    Messages : 9 435
    Points : 31 877
    Points
    31 877
    Par défaut
    +1 davido84

    +100 même s'il veut le résultat avec balises
    Cordialement.
    J'utilise toujours le point comme séparateur décimal dans mes tests.

  5. #5
    Inactif  

    Homme Profil pro
    cuisiniste
    Inscrit en
    Avril 2009
    Messages
    15 379
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : cuisiniste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2009
    Messages : 15 379
    Points : 12 075
    Points
    12 075
    Billets dans le blog
    8
    Par défaut heu
    bien vu a tout les deux
    mes fichiers dans les contributions:
    mail avec CDO en vba et mail avec CDO en vbs dans un HTA
    survol des bouton dans userform
    prendre un cliché d'un range

    si ton problème est résolu n'oublie pas de pointer : : ça peut servir aux autres
    et n'oublie pas de voter

  6. #6
    Futur Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 17
    Points : 8
    Points
    8
    Par défaut
    Merci beaucoup !!

    J'ai opté pour ce code d'une simplicité déconcertante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg.Pattern = "(\[\w*])(.+?)(\[/\w*])"
    Mais je ne comprends pas cette partie :

  7. #7
    Inactif  

    Homme Profil pro
    cuisiniste
    Inscrit en
    Avril 2009
    Messages
    15 379
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : cuisiniste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2009
    Messages : 15 379
    Points : 12 075
    Points
    12 075
    Billets dans le blog
    8
    mes fichiers dans les contributions:
    mail avec CDO en vba et mail avec CDO en vbs dans un HTA
    survol des bouton dans userform
    prendre un cliché d'un range

    si ton problème est résolu n'oublie pas de pointer : : ça peut servir aux autres
    et n'oublie pas de voter

  8. #8
    Membre confirmé
    Homme Profil pro
    conseiller
    Inscrit en
    Janvier 2013
    Messages
    367
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : conseiller
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Janvier 2013
    Messages : 367
    Points : 649
    Points
    649
    Par défaut
    Bonsoir et le salut à mercatog et Patrick,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg.Pattern = "(\[\w*])(.+?)(\[/\w*])"
    Les parenthèse me semblent inutiles vu que tu n'as apparemment pas besoin de capturer des chaînes spécifiques.
    Si toutefois tu ne veux pas capturer les balises :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    .Pattern = "\[\w](.+?)\[/\w]"
    et utiliser les SubMatches
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    For Each M In MT    
        'T = T & ";" & M.Value  'avec balises
        T = T & ";" & M.SubMatches(0) 'sans balise
    Next M
    De plus l'utilisation du "*" ne te sert à rien vu que tu as toujours un digit dans ton exemple (a ou d).

    le "." équivaut à tout caractère excepté le retour à la ligne.
    Le "+" est un quantificateur qui veut dire 1 ou plusieurs caractères.
    Donc ".+" te ramène l'ensemble des caractères situés entre la balise entrante et la balise sortante.
    Mais il faut avoir à l'esprit qu'un quantificateur est gourmand par défaut.
    Donc en l'état le pattern te ramènera toute la chaîne située entre la première balise entrante et la dernière balise sortante.
    L'utilisation du point d'interrogation te permet d'indiquer que tu veux arrêter la capture à chaque balise sortante qui se présente.

    Donc si tu as
    Lorem ipsum dolor sit amet, [a]consectetur adipiscing[/a] elit, sed do eiusmod [d]tempor[/d] incididunt ut labore et dolore magna aliqua. Ut enim ad [a]minim[/a] veniam...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    .Pattern = "\[\w].+\[/\w]"
    te ramènera
    [a]consectetur adipiscing[/a] elit, sed do eiusmod [d]tempor[/d] incididunt ut labore et dolore magna aliqua. Ut enim ad [a]minim[/a]
    tandis que
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    .Pattern = "\[\w].+?\[/\w]"
    te ramènera
    [a]consectetur adipiscing[/a]
    [d]tempor[/d]
    [a]minim[/a]

    A+

  9. #9
    Futur Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 17
    Points : 8
    Points
    8
    Par défaut
    Merci beaucoup pour les explications. Pour les parenthèses j'ai besoin de récupérer les balises et le contenu. J'ai également rajouté * après la classe word (que j'ai modifié en + pour être plus correct même si dans mon cas ça ne changera rien) car dans mon exemple mes balises n'ont qu'une lettre mais ça n'est pas toujours le cas (j'aurais dû le préciser, mea culpa). Mais pour le reste du code pas de soucis, seul le pattern me posait problème.

    Je n'avais pas fait attention la première fois, mais pourquoi le crochet fermant des balises n'est-il pas échappé ?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    reg.Pattern = "(\[\w+])(.+?)(\[/\w+])"
    Je comprends mieux le pattern mais j'ai toujours un peu de mal. D'après tes explications davido84, on dirait que le ? est le quantificateur de la balise fermante (alors que le quantificateur se place après le motif concerné non ?).

    Au début en lisant le code, voilà ce que je comprenais : tout caractère (sauf \n) répété 1 ou plusieurs fois, répété 0 ou 1 fois. Tu comprends pourquoi je bug ?

  10. #10
    Inactif  

    Homme Profil pro
    cuisiniste
    Inscrit en
    Avril 2009
    Messages
    15 379
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : cuisiniste
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2009
    Messages : 15 379
    Points : 12 075
    Points
    12 075
    Billets dans le blog
    8
    Par défaut re
    re
    bonjour si il est échappé ce qui est en bleu est valable pour tout ce qui suit car tout est dans la parenthèse et non dans le crochet
    "(\[\w+])
    mes fichiers dans les contributions:
    mail avec CDO en vba et mail avec CDO en vbs dans un HTA
    survol des bouton dans userform
    prendre un cliché d'un range

    si ton problème est résolu n'oublie pas de pointer : : ça peut servir aux autres
    et n'oublie pas de voter

  11. #11
    Membre confirmé
    Homme Profil pro
    conseiller
    Inscrit en
    Janvier 2013
    Messages
    367
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : conseiller
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Janvier 2013
    Messages : 367
    Points : 649
    Points
    649
    Par défaut
    Je n'avais pas fait attention la première fois, mais pourquoi le crochet fermant des balises n'est-il pas échappé ?
    L'outil RegExp adapté pour Visual Basic considère 12 métacaractères (je ne parle pas des caractères de saut de page, retour chariot, tabulation, etc.) : Le crochet fermant n'en fait pas partie donc il n'a pas besoin d'être échappé.

    D'après tes explications davido84, on dirait que le ? est le quantificateur de la balise fermante (alors que le quantificateur se place après le motif concerné non ?).
    Le ? est en lien avec ".+" et non avec la balise fermante. il indique au pattern de capturer tous les caractères qui précèdent la première balise sortante qu'il détecte. S'il n'y avait pas le ? le pattern capturerait tout ce qui se trouve entre la première balise entrante et la dernière balise sortante, tandis que grâce au "?" la recherche est stoppée au dernier caractère qui précède la première balise sortante trouvée.
    Une fois cette correspondance trouvée la recherche reprend et va chercher la deuxième puis la troisième correspondance.

    A+

  12. #12
    Futur Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 17
    Points : 8
    Points
    8
    Par défaut
    Ahh okay je pense que j'ai compris. D'une manière générale si "?" suit un quantificateur ça veut dire que le motif suivant le "?" est une sorte de point d'arrêt c'est ça ?

  13. #13
    Membre confirmé
    Homme Profil pro
    conseiller
    Inscrit en
    Janvier 2013
    Messages
    367
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : conseiller
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Janvier 2013
    Messages : 367
    Points : 649
    Points
    649
    Par défaut
    Cela veut dire qu'un opérateur gourmand va rechercher la plus grande correspondance possible tandis qu'un opérateur non gourmand (utilisation du "?") s'arrêtera à la première correspondance trouvée, la prendra en compte, puis continuera le traitement de la chaîne, trouvera une deuxième correspondance, etc (dans ton exemple il trouvera 3 correspondances).
    A+

  14. #14
    Futur Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    17
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 17
    Points : 8
    Points
    8
    Par défaut
    Merci beaucoup pour les explications

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [XML] Récupération contenu entre balises
    Par JibsouX dans le forum Bibliothèques et frameworks
    Réponses: 2
    Dernier message: 25/11/2013, 01h13
  2. [XML] Différence entre contenu de balise et argument
    Par cyrano_de_bergerac dans le forum XML/XSL et SOAP
    Réponses: 5
    Dernier message: 07/06/2007, 15h49
  3. Réponses: 3
    Dernier message: 04/10/2006, 22h15
  4. [Debutant]Edition du contenu entre les balises
    Par Perceval dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 01/06/2005, 09h16
  5. [Balise XML] Comment récupérer le contenu entre 2 balise?
    Par ZoumZoumMan dans le forum C++Builder
    Réponses: 5
    Dernier message: 05/03/2004, 16h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo