Salut,
Je suis tombé sur cette regexp : # \w* (?![0-9]{1}) (\w+)#.
Mon souci, c'est que je ne la comprends pas bien :D.
Quelqu'un aurait-il la bonté de la détailler ? En particulier (?![0-9]{1}).
Merci ^^ !
Version imprimable
Salut,
Je suis tombé sur cette regexp : # \w* (?![0-9]{1}) (\w+)#.
Mon souci, c'est que je ne la comprends pas bien :D.
Quelqu'un aurait-il la bonté de la détailler ? En particulier (?![0-9]{1}).
Merci ^^ !
J'espère que tu ne t'es pas fait mal.
(?!...) est un test avant négatif (negative lookahead), il signifie "non suivi de" et s'applique uniquement à la position où il se trouve dans la pattern.
Si par exemple j'écris (?!K)[A-Z]+, et que je l'applique à la chaîne "LAPIN", j'obtiendrai "LAPIN", par contre si je l'applique à la chaîne "KOALA", j'obtiendrai "OALA".
À noter qu'utiliser le quantificateur {1} dans une pattern ne sert strictement à rien, puisque par défaut les éléments ne sont là qu'une fois.
Merci pour le retour :) !
Si on considère ce code :
Ca donne:Code:
1
2
3
4
5
6
7
8
9 <?php //Enter your code here, enjoy! $p = "# \w*(?![0-9]{1}) (\w+)#"; $s = "PHP5 released PHP6 not released"; preg_match_all($p, $s, $matches); print_r($matches[1]);
Ce que je ne comprends pas, surtout si je suis ton explication PHP6 contient bien un chiffre...Array ( [0] => PHP6 [1] => released )
ça doit être du au comportement des raccourcis genre \w, que je n'ai jamais trop utilisés:
ces métacaractères acceptent les nombres!
du coup:
Code:
1
2
3
4
5
6
7
8
9 <?php $p = "/(?:[a-z]+(?![0-9]) ?)+/"; $s = "PHP5 released PHP6 not released"; preg_match_all($p, $s, $matches); print_r($matches[0]); //Array ( [0] => released [1] => not released ) ?>
si tu veux PHP aussi essaie en lookbehind:
Code:
1
2
3
4
5
6
7
8
9
10 <?php $p = "/(?:[a-z]+(?<![0-9]) ?)+/i"; $s = "PHP5 released PHP6 not released"; preg_match_all($p, $s, $matches); print_r($matches[0]); //Array ( [0] => PHP [1] => released PHP [2] => not released ) ?>
Autre manière en lookahead
Code:
1
2
3
4
5
6
7
8
9 <?php $p = "/(?![0-9]) ?((?:[a-z]+ ?)+)/i"; $s = "PHP5 released PHP6 not released"; preg_match_all($p, $s, $matches); print_r($matches[1]); ?>
pour plus d'informations sur les assertions négatives, il y a un paragraphe les concernant dans ce tutoriel :
http://g-rossolini.developpez.com/tu...=syntaxe#LII-8
Merci d'utiliser les balises codes quand tu postes du code de manière à le rendre lisible.
De toute manière, ce test avant ne sert à rien non plus puisque il est placé juste avant un espace (il vérifie que l'espace qui va suivre n'est pas un chiffre, ce qui est toujours vrai). Cette pattern est donc équivalente àCode:# \w* (\w+)#
Excellent ! Merci messieurs :).
Oui c'est le caractère qui va suivre, mais vu que dans la pattern il y a un espace, le lookahead ne sert à rien.Un espace ne peut pas être un chiffre.Code:
1
2 $p = '# \w*(?![0-9]) (\w+)#'; // ^----- ici
Il ne l'annule pas, mais la rend inutile, c'est comme si tu disais: "à cette endroit je veux un espace qui ne soit pas un chiffre" ce qui revient à dire "à cette endroit je veux un espace" plus simplement.
Il faut bien comprendre qu'une assertion ne consomme pas de caractères, elle se contente d'effectuer un test, mais la position courante ne change pas. Donc dans ton exemple, le lookahead et l'espace se rapportent tous deux à la même position.
Tu dois me trouver un peu lourd mais je déteste utiliser des instructions que je ne maîtrise pas :).
Donc si je te suis bien, tu dis qu'il faut finalement considérer l'ensemblecomme un tout disant qu'on cherche "peut-être une chaine qui éventuellement est suivi d'un chiffre ET est suivi d'un espace" ?Code:"\w*(?![0-9]) "
Littéralement ce bout de pattern "\w*(?![0-9]) " signifie: un éventuel "mot" non suivi d'un chiffre, et un espace.
- \w* : zéro, un ou plusieurs caractères parmi les chiffres et les lettres ASCII ainsi que l'underscore (\w est l'équivalent de la classe [a-zA-Z0-9_]). Les caractères correspondants à cette description seront alors consommés.
- (?![0-9]) : test avant négatif (negative lookahead). Le "mot" précédent ne doit pas être suivi d'un chiffre. C'est un test, le moteur de regex vérifie que le caractère d'après (s'il existe) n'est pas un chiffre, puis retourne à sa position précédente. Aucun caractère n'est consommé.
- " " : un espace juste après le "mot", ce caractère est consommé.
Maintenant et étant donné que tu commences, peut-être n'est il pas nécessaire que tu t'acharnes à comprendre le mystérieux message caché dans cette pattern qui, à l'évidence n'a aucun sens, et ne sert probablement à rien. En revanche je t'invite à expérimenter toi-même ces nouveaux éléments en construisant tes propres patterns que tu pourras tester avec regex101.com. Ce sera à mon avis, plus profitable.
C'est l’incertitude que j'avais, merci pour la confirmation.
Je ne débute pas, seulement je n'avais jamais eu l'occasion d'utiliser jusqu'à présent les lookahead & lookbehind.
Et si, je considère que d'utiliser un langage sans en comprendre son fonctionnement est une erreur majeur. Sur avec les expressions régulières, ça ne pardonne pas.