pb evaluation regexp

**riccco** · 26/12/2007, 17h35

Bonjour,
Je fais mes premiers pas avec Perl et j'ai un petit souci d'evaluation d'une expression reguliere pour extraire du code entre deux balises html.
Voici le code que je teste :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
sub lirefic(){
    my $fic= $dir.$ligne;
    if(-f $fic){
	print $fic." : \n";
	die "ouverture fichier impossible : $!\n" unless open(FIC, $fic);
	while(<FIC>){
	    if($_ =~ /<style[^>]+>([^<]+)<\/style>/){
		print "$_";
	    }  
	}
	close(FIC);
    }
}

et voici ce sur quoi j'applique mon expression reguliere :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
<style type="text/css">
html,body{margin:0;padding:0}
body{font: 76% arial,sans-serif}
p{margin:0 10px 10px}
</style>

Celui çi ne me renvoir que ceci en resultat d'évaluation ( je suis sur Emacs):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<style type="text/css">^M

, mais pas le contenu entre les deux balises.
Mon expression réguliere me semble correcte puisque ça fonctionne avec PHP ( voir çi dessous). J'ai essayé avec les operateurs 'm' et 's' sans succès. Je pense le l'évaluation butte au passage au premier passage à la ligne.

Qqu'un aurait il une idée ?
Merci d'avance.
riccco

ps un bout de code en PHP qui fonctionne parfaitement sur ce cas:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
function regExtract($f) {
    if(is_readable($f)){ $contenu = file_get_contents($f);}
    preg_match('/<style[^>]+>([^<]+)<\/style>/', $contenu, $match);
    createCssFile($match[1]);   
}

**Schmorgluck** · 26/12/2007, 18h07

Le problème, c'est que ton fichier est lu ligne par ligne. Or, ce que cherche ta regex n'est pas sur une seule de ces lignes. Je suis même surpris que tu aies un affichage, vu que ta regex ne peut jamais réussir.

Deux solutions sont envisageables : lire toutes les lignes de ton fichier, les concaténer avec des retours à la ligne, et enfin utiliser ta regex ; ou utiliser l'opérateur d'étendue ..

Voici une solution avec la deuxième proposition.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
while(<FIC>){
    if(/<style[^>]+>/../<\/style>/){
        print "$_";
    }  
}

**Jedai** · 26/12/2007, 18h30

Envoyé par Schmorgluck

Deux solutions sont envisageables : lire toutes les lignes de ton fichier, les concaténer avec des retours à la ligne, et enfin utiliser ta regex ; ou utiliser l'opérateur d'étendue ..

Il y a également la possibilité de lire directement la totalité du fichier.
De façon idiomatique, ça donne ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
open my($file), '<', $filepath
  or die "$!\n";
my $content = do { local $/; <$file> };
close $file;
my $style = ($content =~ m/ta regex/);

--
Jedaï

**riccco** · 26/12/2007, 19h02

Merci Schmorgluck et Jedai pour vos réponses.

J'ai compris en effet que le pb vient du fait que mon fichier est lu ligne par ligne, or, il est vrai que la fonction PHP que j'utilise place justement le contenu du fichier dans une variable.
Du coup j'ai utilisé la seconde méthode de Schmorgluck qui fonctionne à merveille. Par contre, j'avoue que je ne comprends pas ce qu'est "l'operateur d'étendue" et ce qui, dans ta syntaxe (solution de la 2eme proposition), fait comprendre ce qu'il faut à l'interpreteur de Perl.

Je retiens la réponse de Jedai que je mets de côté qd j'aurais un peu plus avancé en Perl car deux choses sont encore bizarre pour moi : l'utilisation de "$/" que je ne connais pas encore, de même que la syntaxe :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my $content = do { local $/; <$file> };

pour lire le contenu d'un fichier.

Merci sinceremment pour vos réponses car c pas si facile de débuter en Perl et c donc très sympa de trouver des âmes charitables pour me faire avancer un peu.

riccco

**Jedai** · 26/12/2007, 20h27

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my $content = do { local $/; <$file> };

L'opérateur <> lit par défaut ligne par ligne, mais ce comportement peut être modifié en changeant le contenu de la variable spéciale $/ (séparateur d'enregistrement), par défaut $/ vaut "\n" mais si on lui affecte undef (non-défini), le fichier est lu en entier (on dit qu'il est "slurpé"). local() restreint une modification sur une variable globale à une portée lexicale (un bloc) et "do {}" permet justement de créer une telle portée et renvoie la dernière expression évaluée dans le bloc.
Ainsi dans le reste du script <> continue à avoir son comportement par défaut, mais on récupère dans $content tout le contenu du fichier.

Si vous êtes sur un système assez ouvert, une bonne option est d'installer File::Slurp, qui te permettra d'ouvrir, lire, et clore un fichier en une fonction, de façon très efficace.

--
Jedaï

**riccco** · 26/12/2007, 21h34

@Jedai, merci pour ces explications très claires de $/ - séparateur d'enregistrement.
J'essaye actuellement d'installer File::Slurp, mais après un premier essai infructeux, je vais relancer la commande cpan en root...

Merci beaucoup.

riccco

**Schmorgluck** · 28/12/2007, 00h29

Envoyé par riccco

Du coup j'ai utilisé la seconde méthode de Schmorgluck qui fonctionne à merveille. Par contre, j'avoue que je ne comprends pas ce qu'est "l'operateur d'étendue" et ce qui, dans ta syntaxe (solution de la 2eme proposition), fait comprendre ce qu'il faut à l'interpreteur de Perl.

L'opérateur d'étendue (range operator) est assez délicat à manier en contexte scalaire. En contexte de liste, on l'utilise pour créer une liste d'éléments consécutifs, comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
# on crée une liste de 1 à 10
my @liste = (1..10);

Mais en contexte de liste, c'est plus tordu (preuve supplémentaire de l'importance de maîtriser es contextes). Je vais tacher de faire aussi générique que possible : l'expression b1 .. b2, où b1 et b2 sont des expressions interprétables comme valeurs booléennes, a pour valeur faux dans un premier temps, puis sa valeur devient vrai si b1 est vrai, et reste vrai, quelque soit la valeur de b1, tant que b2 est faux.

Mouais, pas clair. Le plus simple c'est de se le représenter comme un interrupteur, le terme de gauche sert à l'allumer, le terme de droite à l'éteindre.

L'expression que j'ai utilisée, /<style[^>]+>/../<\/style>/, est donc constituée de deux expressions régulières (testées sur $_ par défaut) reliées par l'opérateur d'étendue. Lorsque la première regex est évaluée à vrai, l'expression prend la valeur vrai jusqu'après que la deuxième regex soit évaluée à vrai (le terme de gauche est évalué à la fin, l'expression renvoie donc vrai une dernière fois, ce qui nous permet d'avoir la dernière ligne).

Pour être exhaustif, il existe une variante à trois points au lieu de deux, où le deuxième terme n'est pas évalué si le premier est évalué à vrai. Dans l'exemple que tu as donné, cela ne changerait rien, mais si la balise de fermeture était sur la même ligne que la balise d'ouverture, ça ne marcherait pas bien, car la fermeture ne serait pas prise en compte. Cette variante sert dans d'autres circonstances (quand le marqueur de fin est le même que le marqueur de début, par exemple).

Si j'ai échoué à être compréhensible (ce qui ne m'étonnerait pas) Cet article sera sans doute plus clair.

pb evaluation regexp

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager