Regex complexe pour supprimer certains liens

**rudddy** · 29/10/2013, 16h59

Bonjour,

je monte un script qui me permet de supprimer d'un site tous les liens sortants vers un NDD domain.tld

j'ai tenté la regex suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_match('#<a.*?href=\"http:\/\/www.domain.tld.*?\".*?>(.*?)<\/a>#', $content, $out);

Pourquoi le premier .*? ???

Pour pouvoir gérer les cas où l'attribut title ou class du lien est placé entre le <a et le href.

Tout marche bien sauf dans les textes où plusieurs liens sont présents, car le premier .*? me prend tout le code compris entre l'ouverture du premier <a et le href du dernier lien vers domain.tld

Je bloque depuis hier. Merci pour votre aide.

**tsuji** · 30/10/2013, 16h41

Vous pouvez faire comme ça.

Code php :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
$p='\bhref\s*=\s*(")http:\/\/www\.domain\.tld[\s\S]*?(")';
$pattern='#(<a\s+[\s\S]*?)('.$p.')([\s\S]*?>)#';
$out=preg_replace($pattern, '${1}${5}', $content);

J'ai mis (") dans un sous-groupe pour qu'on puisse généraliser au temps futur parce que technologiquement parlant il ne serait pas forcément ("), un simple (') est valable equalement. Ça a un effet sur le comptage $5 (si vous ne voyez pas immédiatement). Aussi, on peut faire des trucs peut-être plus avancés, mais la base c'est ça.

**CosmoKnacki** · 30/10/2013, 19h30

Tu peux faire comme ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<?php
$subject = <<<'LOD'
Lorem ipsum dolor sit amet, consectetur <a class="style1" href="http://www.domain.tld/">
adipisicing elit,</a> sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Ut enim ad <a href= domain.tld>minim veniam</a>, quis nostrud exercitation ullamco laboris
nisi ut aliquip <a href = 'www.domain.tld/user?id=2714'>ex <span>ea</span> commodo</a>
consequat.
LOD;
 
$pattern = <<<'LOD'
~
    <a\b                                           # début de la balise "a" ouvrante
    (?> [^>h]++ | \Bh | h(?!ref \s*+ =) )*+        # contenu jusqu'à l'attribut href
    href \s*+ = \s*+ ["']?+                        # attribut href
    (?> http:// )?+ (?> www\. )?+ domain\.tld \b   # début de contenu de l'attribut
    [^>]*+ >                                       # fin de la balise ouvrante
    ( (?> [^<]++ | <(?!/a>) )*+ )                  # texte du lien
    </a>                                           # balise fermante
~ix
LOD;
 
$result = preg_replace($pattern, '$1', $subject);

Regex complexe pour supprimer certains liens

Langage PHP

Discussions similaires

Partager

Partager