Suppression commentaire PHP

**xxkirastarothxx** · 14/04/2014, 17h19

Bonjour à tous,

je cherche à faire une regex pour supprimer les commentaires inline php d'un fichier,
en prenant en compte le fait que la balise de fin de php (?>) est tout de même interprétée dans ce type de commentaire (et donc met fin au commentaire)

j'ai donc bidouillé un truc comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_replace("#(//[^>]*(\?>|\n))#", "", $content)

Mais ça ne marche qu'a moitié, par exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

// normal comment

est bien supprimé,
ensuite:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

// another test ?><div>

Est bien remplacé par <div>

par contre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

// last test !> <div>

est également remplacé par <div> alors que toute la ligne devrait être supprimée.

et j'ai l'impression qu'il y a également un problème: il prend en compte plusieurs lignes :'(

Le problème étant que la partie [^>] empêche le caractère ">" dans le commentaire, alors que je cherche a interdire "?>" (et %> aussi dans le cas ou ce type de balise est autorisé par le serveur)

donc, pour faire simple, je cherche à créer un règle qui dit:
* n'importe quel caractère sauf s'il s'agit de "?>" ou "%>" ou "\n"

Quelqu'un sait-il comment faire ?

**patrickbaras** · 15/04/2014, 00h58

tu doit le faire en deux temps

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
preg_replace("#(//).*(\?>)#", "", $content) //pour supprimer "//......?>"
preg_replace("#(//).*(\n)#", "", $content) //pour supprimer les ligne  "//......"

le ou exclusif n'existe pas (a ma connaissance) dans les regexp

**CosmoKnacki** · 15/04/2014, 04h12

Tu peux résoudre ton problème en utilisant un quantificateur paresseux .*? (qui s'arrête dés que possible) et un test avant (?=...) (suivi par ...), avec cette pattern:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$result = preg_replace('~//.*?(?=[?%]>|$)~m', '', $content);

Où le modificateur m change le sens de l'ancre $ qui marque alors la fin de ligne (au lieu de la fin de la chaîne par défaut).

Néanmoins, il est un peu naïf de croire que c'est aussi simple, car la syntaxe du PHP regorge de pièges pouvant mettre à mal cette pattern. Voici un exemple regroupant plusieurs pièges possibles.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
$source = <<<'EOD'
<?php
echo 'Et voici le nouvel // Ajax'; // avec sa nouvelle formule sans trace
print "Plus efficace // et surtout plus brillant";
$foo = <<<DATA
Et en plus ya plus besoin de // rincer
DATA;
$bar = <<<'DATA'
C'est vraiment // une nouveauté
DATA;
/*Ajax sans rincer*//* c'est la // liberté */
echo "\n";// tada ta ta ?>
EOD;

Donc on a les chaînes de caractères (simple quotes, double quotes, heredoc, nowdoc), les commentaires multilignes (qui peuvent contenir //, mais aussi former deux slashes quand ils sont l'un à la suite de l'autre) et les tags de fin de code PHP.

Pour résoudre ces problèmes on aboutit à une pattern plus imposante que la précédante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
$pattern = <<<'EOD'
~
(?(DEFINE)        # on définit des sous-patterns nommées
    (?<mulcom> /\*  .*?   (?: \*/ | $ ) )                             # commentaires multiligne
    (?<qstr> (["']) (?> [^"'\\]++ | \\. | (?!\g{-1})["'] )* \g{-1} )  # chaîne entre quotes simples ou doubles
    (?<heredoc> <<< (["']?) ( [[:alnum:]]+ ) \g{-2}                   # syntaxe heredoc et nowdoc
                \R (?> [^\r\n]* \R )*? \g{-1} ;? \R )
    
    (?<keep> \g<mulcom> | \g<qstr> | \g<heredoc> )                    # tous ce qui doit être évité
    
    (?<inline> // [^\r\n]*? (?= [%?]> | \R | $) )                     # commentaire inline
)
 
# La pattern principale
\g<keep> (*SKIP) (*FAIL) | \g<inline>
 
~xsD
EOD;
 
$result = preg_replace($pattern, '', $source);
echo htmlspecialchars($result);

Cette pattern se divise en deux avec une zone dans laquelle on définit des sous-patterns pour pouvoir les utiliser plus tard, et la pattern en elle même.
\g<souspattern> sert à appeler une sous pattern (ça évite de réécrire plusieurs fois la même chose et on peut les appeler les unes dans les autres), quant à \g{-1}, c'est une référence à la sous-chaîne correspondante au dernier groupe capturant ( -2 pour l'avant dernier, etc., \g{souspattern} pour un groupe nommé).

\R représente une nouvelle ligne sans ce soucier de son format ( CRLF ou LF ou bien pire encore).
(*SKIP) et (*FAIL) sont des directives pour le moteur de regex (backtracking control verbs). (*SKIP) oblige le moteur à ne pas retenter de matcher la sous chaîne correspondant à la sous pattern à sa gauche si la pattern à sa droite échoue. (*FAIL) fait échouer la pattern. Plus simplement, ces deux directives, mises l'une à la suite de l'autre, permettent d'éviter la sous chaîne correspondante à la sous-pattern qui précède. C'est avec cette astuce que l'on se débarasse de tous ce qu'on a regrouper dans \g<keep>.

Cette pattern, bien qu'élaborée, conservera néanmoins aveuglément aussi bien ?> que %> et ce, quelque soit le tag d'ouverture du code. Ce problème peut être résolu mais c'est aller vers une pattern encore plus complexe.

En fait il y a une solution beaucoup plus simple pour analyser du code PHP en PHP, c'est d'utiliser les fonctions tokenizer:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
$tokens = token_get_all($source);
var_dump($tokens);
$result = '';
foreach ($tokens as $token) {
    if (!isset($token[1]))
        $result .= $token;
    elseif ($token[0] === T_COMMENT && strpos($token[1], '//')===0)
        $result .= preg_replace('~.+~', '', $token[1]); // permet de récupérer la newline d'origine
    else    
        $result .= $token[1];
}
 
echo htmlspecialchars($result);

**xxkirastarothxx** · 15/04/2014, 11h44

Epic réponse !
Regex de malade, explication ultra détaillée...
tu m’enlève une épine du pied énorme sur ce coup

Le temps d'analyser tout ça, de comprendre un peu comment ça marche et de faire quelques tests, et je passe en résolu.

Et merci beaucoup sur le truc du tokenizer, vu ce que je dois faire, je pense que ça va énormément me servir

Avé CosmoKnacki,
Que les saucisses de l'espace soit avec toi ! ^^

[Edit]
Et bien voila! Super fonction qu'est le tokenizer, ce que je pensais me prendre plusieurs jours tient enfait en quelques lignes sans passer par les regex,
http://www.developpez.net/forums/d14...xtracteur-php/

Résolu ++ donc

Merci encore
[/Edit]

Suppression commentaire PHP [RegEx]

Langage PHP

Discussions similaires

Partager

Partager