regex et xml

**rambc** · 07/07/2011, 13h01

Bonjour,
j'aimerais savoir comment récupérer ce qui est entre <attribut valeur = "5"> et </attribut> dans <attribut valeur = "5">Du texte ou autre chose, peu importe...</attribut>.

J'imagine qu'il faut "matcher" des groupes.

Bien entendu, je ne cherche pas à faire un "parseur" de XML, mais à mieux comprendre les regex.

**mont29** · 07/07/2011, 14h19

Héhéhé… Il se trouve que j’ai, il y a quelques années maintenant, implémenté un mini-parseur xml en regex (sous PHP, d’ailleurs…).

Alors, en fait, il y a plusieurs situations*:

* S’il ne peut pas y avoir d’autre élément <attribut> au sein de l’un d’eux, la regex est (très) simple, ’suffit de parcourir le contenu en mode non-glouton, quelque chose comme*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

"<attribut ?[^>]*>(.*?)</attribut>"

* Si les niveaux d’imbrication sont limités et restent raisonnables, ’suffit d’ajouter des imbrications optionnelles, c’est fastidieux mais pas trop compliqué non plus…

* Par contre, si on veut pouvoir gérer des niveaux d’imbrication quelconque… C’est pas possible en pur regex Python (en tout cas, à ma connaissance)*! En PHP, c’est possible, grâce à une fonctionnalité avancée, les regex récursives… Mais ça donne un code franchement indigeste*! Je pourrai retrouver ce que j’avais pondu à l’époque, si ça t’intéresse…

**rambc** · 07/07/2011, 15h59

Merci pour la réponse à ma question imprécise car j'ai omis de préciser que je ne connais pas "attribut" à l'avance...

**mont29** · 07/07/2011, 18h05

Ben, ça change pas grand chose, si*? Tu fais juste un .format() (ou un %… ) pour insérer le nom de ta balise dans le code de la regex, avant de la compiler*?

Ou alors, tu veux faire un truc genre «*je veux le contenu de la première balise rencontrée, quelle qu’elle soit*» –*dans ce cas, il faut effectivement avoir recours à une substitution*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

"<(?P<tag>\S+) ?[^>]*>(.*?)</(?P=tag)>"

Ici, j’ai utilisé un groupe nommé pour récupérer le nom du tag, mais un groupe anonyme aurait aussi bien pu faire l’affaire (le nom du tag est constitué de n’importe quoi sauf des espaces).