IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Suppression commentaire PHP [RegEx]


Sujet :

Langage PHP

  1. #1
    Membre habitué
    Inscrit en
    Mai 2008
    Messages
    317
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 317
    Points : 135
    Points
    135
    Par défaut Suppression commentaire PHP
    Bonjour à tous,

    je cherche à faire une regex pour supprimer les commentaires inline php d'un fichier,
    en prenant en compte le fait que la balise de fin de php (?>) est tout de même interprétée dans ce type de commentaire (et donc met fin au commentaire)

    j'ai donc bidouillé un truc comme ça:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    preg_replace("#(//[^>]*(\?>|\n))#", "", $content)
    Mais ça ne marche qu'a moitié, par exemple:

    est bien supprimé,
    ensuite:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    // another test ?><div>
    Est bien remplacé par <div>

    par contre
    est également remplacé par <div> alors que toute la ligne devrait être supprimée.

    et j'ai l'impression qu'il y a également un problème: il prend en compte plusieurs lignes :'(

    Le problème étant que la partie [^>] empêche le caractère ">" dans le commentaire, alors que je cherche a interdire "?>" (et %> aussi dans le cas ou ce type de balise est autorisé par le serveur)

    donc, pour faire simple, je cherche à créer un règle qui dit:
    * n'importe quel caractère sauf s'il s'agit de "?>" ou "%>" ou "\n"

    Quelqu'un sait-il comment faire ?

  2. #2
    Membre éprouvé Avatar de patrickbaras
    Homme Profil pro
    Informaticien (à sa mémère).
    Inscrit en
    Septembre 2010
    Messages
    525
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : Belgique

    Informations professionnelles :
    Activité : Informaticien (à sa mémère).
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Septembre 2010
    Messages : 525
    Points : 1 103
    Points
    1 103
    Par défaut
    tu doit le faire en deux temps
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    preg_replace("#(//).*(\?>)#", "", $content) //pour supprimer "//......?>"
    preg_replace("#(//).*(\n)#", "", $content) //pour supprimer les ligne  "//......"
    le ou exclusif n'existe pas (a ma connaissance) dans les regexp
    ce message vous a aidé ! Un petit click sur fait toujours plaisir

    "Nos études ont montré que la probabilité qu’un programme corrigé fonctionne comme avant la correction est seulement de cinquante pour cent." Bev Littlewood & Lorenzo Strigini

    "Le logiciel, c’est comme le sexe, c’est meilleur quand c’est libre/gratuit." Linus Torvalds

  3. #3
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 858
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 858
    Points : 6 556
    Points
    6 556
    Par défaut
    Tu peux résoudre ton problème en utilisant un quantificateur paresseux .*? (qui s'arrête dés que possible) et un test avant (?=...) (suivi par ...), avec cette pattern:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $result = preg_replace('~//.*?(?=[?%]>|$)~m', '', $content);
    Où le modificateur m change le sens de l'ancre $ qui marque alors la fin de ligne (au lieu de la fin de la chaîne par défaut).


    Néanmoins, il est un peu naïf de croire que c'est aussi simple, car la syntaxe du PHP regorge de pièges pouvant mettre à mal cette pattern. Voici un exemple regroupant plusieurs pièges possibles.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    $source = <<<'EOD'
    <?php
    echo 'Et voici le nouvel // Ajax'; // avec sa nouvelle formule sans trace
    print "Plus efficace // et surtout plus brillant";
    $foo = <<<DATA
    Et en plus ya plus besoin de // rincer
    DATA;
    $bar = <<<'DATA'
    C'est vraiment // une nouveauté
    DATA;
    /*Ajax sans rincer*//* c'est la // liberté */
    echo "\n";// tada ta ta ?>
    EOD;
    Donc on a les chaînes de caractères (simple quotes, double quotes, heredoc, nowdoc), les commentaires multilignes (qui peuvent contenir //, mais aussi former deux slashes quand ils sont l'un à la suite de l'autre) et les tags de fin de code PHP.

    Pour résoudre ces problèmes on aboutit à une pattern plus imposante que la précédante:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    $pattern = <<<'EOD'
    ~
    (?(DEFINE)        # on définit des sous-patterns nommées
        (?<mulcom> /\*  .*?   (?: \*/ | $ ) )                             # commentaires multiligne
        (?<qstr> (["']) (?> [^"'\\]++ | \\. | (?!\g{-1})["'] )* \g{-1} )  # chaîne entre quotes simples ou doubles
        (?<heredoc> <<< (["']?) ( [[:alnum:]]+ ) \g{-2}                   # syntaxe heredoc et nowdoc
                    \R (?> [^\r\n]* \R )*? \g{-1} ;? \R )
        
        (?<keep> \g<mulcom> | \g<qstr> | \g<heredoc> )                    # tous ce qui doit être évité
        
        (?<inline> // [^\r\n]*? (?= [%?]> | \R | $) )                     # commentaire inline
    )
     
    # La pattern principale
    \g<keep> (*SKIP) (*FAIL) | \g<inline>
     
    ~xsD
    EOD;
     
    $result = preg_replace($pattern, '', $source);
    echo htmlspecialchars($result);
    Cette pattern se divise en deux avec une zone dans laquelle on définit des sous-patterns pour pouvoir les utiliser plus tard, et la pattern en elle même.
    \g<souspattern> sert à appeler une sous pattern (ça évite de réécrire plusieurs fois la même chose et on peut les appeler les unes dans les autres), quant à \g{-1}, c'est une référence à la sous-chaîne correspondante au dernier groupe capturant ( -2 pour l'avant dernier, etc., \g{souspattern} pour un groupe nommé).

    \R représente une nouvelle ligne sans ce soucier de son format ( CRLF ou LF ou bien pire encore).
    (*SKIP) et (*FAIL) sont des directives pour le moteur de regex (backtracking control verbs). (*SKIP) oblige le moteur à ne pas retenter de matcher la sous chaîne correspondant à la sous pattern à sa gauche si la pattern à sa droite échoue. (*FAIL) fait échouer la pattern. Plus simplement, ces deux directives, mises l'une à la suite de l'autre, permettent d'éviter la sous chaîne correspondante à la sous-pattern qui précède. C'est avec cette astuce que l'on se débarasse de tous ce qu'on a regrouper dans \g<keep>.

    Cette pattern, bien qu'élaborée, conservera néanmoins aveuglément aussi bien ?> que %> et ce, quelque soit le tag d'ouverture du code. Ce problème peut être résolu mais c'est aller vers une pattern encore plus complexe.



    En fait il y a une solution beaucoup plus simple pour analyser du code PHP en PHP, c'est d'utiliser les fonctions tokenizer:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    $tokens = token_get_all($source);
    var_dump($tokens);
    $result = '';
    foreach ($tokens as $token) {
        if (!isset($token[1]))
            $result .= $token;
        elseif ($token[0] === T_COMMENT && strpos($token[1], '//')===0)
            $result .= preg_replace('~.+~', '', $token[1]); // permet de récupérer la newline d'origine
        else    
            $result .= $token[1];
    }
     
    echo htmlspecialchars($result);
    Brachygobius xanthozonus
    Ctenobrycon Gymnocorymbus

  4. #4
    Membre habitué
    Inscrit en
    Mai 2008
    Messages
    317
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 317
    Points : 135
    Points
    135
    Par défaut
    Epic réponse !
    Regex de malade, explication ultra détaillée...
    tu m’enlève une épine du pied énorme sur ce coup

    Le temps d'analyser tout ça, de comprendre un peu comment ça marche et de faire quelques tests, et je passe en résolu.

    Et merci beaucoup sur le truc du tokenizer, vu ce que je dois faire, je pense que ça va énormément me servir

    Avé CosmoKnacki,
    Que les saucisses de l'espace soit avec toi ! ^^


    [Edit]
    Et bien voila! Super fonction qu'est le tokenizer, ce que je pensais me prendre plusieurs jours tient enfait en quelques lignes sans passer par les regex,
    http://www.developpez.net/forums/d14...xtracteur-php/

    Résolu ++ donc

    Merci encore
    [/Edit]

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [MySQL] Suppression mysql php
    Par glodybiss4 dans le forum PHP & Base de données
    Réponses: 13
    Dernier message: 05/01/2012, 12h16
  2. suppression enregistrement PHP
    Par pls85 dans le forum Langage
    Réponses: 5
    Dernier message: 01/03/2011, 02h29
  3. Suppression commentaire de la commande DBCC
    Par zut94 dans le forum MS SQL Server
    Réponses: 10
    Dernier message: 18/02/2009, 00h01
  4. [Regex] Suppression commentaire et substitution de paramètre
    Par BiM dans le forum Collection et Stream
    Réponses: 7
    Dernier message: 31/08/2006, 18h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo