regex preg_match php5

Version imprimable

22/03/2016, 15h08
Invité

regex preg_match php5

Salut,

Je suis tombé sur cette regexp : # \w* (?![0-9]{1}) (\w+)#.

Mon souci, c'est que je ne la comprends pas bien :D.

Quelqu'un aurait-il la bonté de la détailler ? En particulier (?![0-9]{1}).

Merci ^^ !
22/03/2016, 19h19
CosmoKnacki

Citation:

Envoyé par fodger

Je suis tombé sur cette regexp

J'espère que tu ne t'es pas fait mal.

(?!...) est un test avant négatif (negative lookahead), il signifie "non suivi de" et s'applique uniquement à la position où il se trouve dans la pattern.

Si par exemple j'écris (?!K)[A-Z]+, et que je l'applique à la chaîne "LAPIN", j'obtiendrai "LAPIN", par contre si je l'applique à la chaîne "KOALA", j'obtiendrai "OALA".

À noter qu'utiliser le quantificateur {1} dans une pattern ne sert strictement à rien, puisque par défaut les éléments ne sont là qu'une fois.

Merci pour le retour :) !

Si on considère ce code :
Code:

1 2 3 4 5 6 7 8 9 <?php //Enter your code here, enjoy! $p = "# \w*(?![0-9]{1}) (\w+)#"; $s = "PHP5 released PHP6 not released"; preg_match_all($p, $s, $matches); print_r($matches[1]);
Ca donne:
Array
(
    [0] => PHP6
    [1] => released
)
Ce que je ne comprends pas, surtout si je suis ton explication PHP6 contient bien un chiffre...

ça doit être du au comportement des raccourcis genre \w, que je n'ai jamais trop utilisés:
ces métacaractères acceptent les nombres!
du coup:

Code:

1
2
3
4
5
6
7
8
9
<?php
$p = "/(?:[a-z]+(?![0-9]) ?)+/";
 
$s = "PHP5 released PHP6 not released";
 
preg_match_all($p, $s, $matches);
print_r($matches[0]);
//Array ( [0] => released [1] => not released )
?>

si tu veux PHP aussi essaie en lookbehind:

Code:

1
2
3
4
5
6
7
8
9
10
 
<?php
$p = "/(?:[a-z]+(?<![0-9]) ?)+/i";
 
$s = "PHP5 released PHP6 not released";
 
preg_match_all($p, $s, $matches);
print_r($matches[0]);
//Array ( [0] => PHP [1] => released PHP [2] => not released )
?>

Autre manière en lookahead

Code:

1
2
3
4
5
6
7
8
9
 
<?php
$p = "/(?![0-9]) ?((?:[a-z]+ ?)+)/i";
 
$s = "PHP5 released PHP6 not released";
 
preg_match_all($p, $s, $matches);
print_r($matches[1]);
?>

23/03/2016, 00h38
mathieu

pour plus d'informations sur les assertions négatives, il y a un paragraphe les concernant dans ce tutoriel :
http://g-rossolini.developpez.com/tu...=syntaxe#LII-8
23/03/2016, 12h05
CosmoKnacki

Merci d'utiliser les balises codes quand tu postes du code de manière à le rendre lisible.

De toute manière, ce test avant ne sert à rien non plus puisque il est placé juste avant un espace (il vérifie que l'espace qui va suivre n'est pas un chiffre, ce qui est toujours vrai). Cette pattern est donc équivalente à

Code:

# \w* (\w+)#
23/03/2016, 15h38
Invité

Excellent ! Merci messieurs :).
23/03/2016, 16h35
Invité

Citation:

Envoyé par CosmoKnacki

il vérifie que l'espace qui va suivre n'est pas un chiffre, ce qui est toujours vrai

Plutôt Le caractère qui va suivre non ?
23/03/2016, 17h15
CosmoKnacki
Oui c'est le caractère qui va suivre, mais vu que dans la pattern il y a un espace, le lookahead ne sert à rien.
Code:

1 2 $p = '# \w*(?![0-9]) (\w+)#'; // ^----- ici
Un espace ne peut pas être un chiffre.
25/03/2016, 12h45
Invité
Citation:
Envoyé par CosmoKnacki

Oui c'est le caractère qui va suivre, mais vu que dans la pattern il y a un espace, le lookahead ne sert à rien.

Code:

1 2 $p = '# \w*(?![0-9]) (\w+)#'; // ^----- ici

Un espace ne peut pas être un chiffre.
Pourquoi l'espace annule-t-il l'assertion ?
25/03/2016, 12h58
CosmoKnacki

Il ne l'annule pas, mais la rend inutile, c'est comme si tu disais: "à cette endroit je veux un espace qui ne soit pas un chiffre" ce qui revient à dire "à cette endroit je veux un espace" plus simplement.

Il faut bien comprendre qu'une assertion ne consomme pas de caractères, elle se contente d'effectuer un test, mais la position courante ne change pas. Donc dans ton exemple, le lookahead et l'espace se rapportent tous deux à la même position.
25/03/2016, 18h12
Invité

Tu dois me trouver un peu lourd mais je déteste utiliser des instructions que je ne maîtrise pas :).

Donc si je te suis bien, tu dis qu'il faut finalement considérer l'ensemble

Code:

"\w*(?![0-9]) "

comme un tout disant qu'on cherche "peut-être une chaine qui éventuellement est suivi d'un chiffre ET est suivi d'un espace" ?
25/03/2016, 19h04
CosmoKnacki
Littéralement ce bout de pattern "\w*(?![0-9]) " signifie: un éventuel "mot" non suivi d'un chiffre, et un espace.
- \w* : zéro, un ou plusieurs caractères parmi les chiffres et les lettres ASCII ainsi que l'underscore (\w est l'équivalent de la classe [a-zA-Z0-9_]). Les caractères correspondants à cette description seront alors consommés.
- (?![0-9]) : test avant négatif (negative lookahead). Le "mot" précédent ne doit pas être suivi d'un chiffre. C'est un test, le moteur de regex vérifie que le caractère d'après (s'il existe) n'est pas un chiffre, puis retourne à sa position précédente. Aucun caractère n'est consommé.
- " " : un espace juste après le "mot", ce caractère est consommé.
Maintenant et étant donné que tu commences, peut-être n'est il pas nécessaire que tu t'acharnes à comprendre le mystérieux message caché dans cette pattern qui, à l'évidence n'a aucun sens, et ne sert probablement à rien. En revanche je t'invite à expérimenter toi-même ces nouveaux éléments en construisant tes propres patterns que tu pourras tester avec regex101.com. Ce sera à mon avis, plus profitable.
29/03/2016, 16h14
Invité

Citation:

Envoyé par CosmoKnacki

un éventuel "mot" non suivi d'un chiffre, et un espace.

C'est l’incertitude que j'avais, merci pour la confirmation.

Je ne débute pas, seulement je n'avais jamais eu l'occasion d'utiliser jusqu'à présent les lookahead & lookbehind.

Et si, je considère que d'utiliser un langage sans en comprendre son fonctionnement est une erreur majeur. Sur avec les expressions régulières, ça ne pardonne pas.