Capture de lien

**CyPh3rZz** · 12/05/2011, 15h21

Bonjour

,

Je bute sur une regex et je n'arrive pas à continuer mon boulot sans elle, alors après quelques recherches infructueuses je me permet de vous solliciter pour trouver mon bonheur :p.

En bref à partir du code HTML d'une page je souhaite obtenir un lien qui contient un mot clé et capturer différentes partie de ce lien, exemple (ici le mot clé sera "contact") :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<a href="presse/nous-contacter/"  >Nous contacter</a>

Ici j'aimerais tout d'abord trouver ce lien et capturer '<a href="' , 'presse/nous-contacter/' , et '" >Nous contacter</a>', jusque la pas de problème j'y parviens grâce à cette regex :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(<a [^>]*href=["']{1})([^"']*)(["']{1}[^>]*>[^<]*?contact[^<]*?</a>)

Je n'avais pas réfléchi à un cas qui pourrait se présenter, parfois le lien est de la forme

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<a ...><strong>*contact*</strong></a>

et dans ce cas la... ma regex ne capture pas puisque j'utilisais [^<]* pour ne pas avoir plusieurs liens capturés en même temps.

Ce que je cherche à faire c'est capturer un lien peu importe ce qu'il y a comme balises (sauf </a> balise fermante du lien..) entre <a> et </a> , mais je n'y parviens pas

si je vire les [^<]* de chaque coté de contact je me retrouve avec des matchs de plusieurs liens, et je ne sais pas comment faire pour dire "n'importe quel caractère tant qu'il n'y a pas cette chaine (</a>).

Un petit coup de main ne serait pas de refus

J'espère que je ne vous ai pas perdu en route, je ne suis pas très doué pour les explications...
Merci

**stealth35** · 12/05/2011, 16h06

pour parser du HTML c'est DOMDocument et grace a XPath tu pourras faire une recherche sur le mot désiré

**CyPh3rZz** · 12/05/2011, 16h27

Re, merci de ta réponse,

Je suis au courant qu'il existe des library pour parser du HTML j'utilise simple_html_dom pour une autre partie de mon script.
Ici vu que mon critère de recherche est entre les balises et non un attribut des balises, cela reviendrait à parser tous les liens puis faire une recherche dans chacun d'eux... je ne sais pas si cela serait efficace niveau perf.

J'ai regardé un peu la doc XPath (que je ne connaissais pas au passage, merci) mais je ne vois pas trop comment cette lib pourrait m'aider... Il me semble que le problème soit le même on peut trier en fonction des attributs mais pas du contenu, si ?

Je me trompe peut-être, j'ai juste regardé vite fait XPath mais des exemples que j'ai vu aucun ne présente la possibilité de faire ce que je souhaite.

Je passerais par la méthode du parser + recherche individuelle si rien de mieux ne se présente

en attendant si quelqu'un à une autre solution...

**stealth35** · 12/05/2011, 16h29

tu peux faire ça avec la fonctions contains de xpath :
http://support.microsoft.com/kb/304265

**CyPh3rZz** · 12/05/2011, 16h33

Hum.. ça parait bien, merci je met résolu si je réussi à l'implémenter

**CyPh3rZz** · 13/05/2011, 09h41

Encore moi, il doit y avoir un truc qui m’échappe...

J'ai fait ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
$doc = new DOMDocument();
@$doc->loadHTML($corps);
 
$xpath = new DOMXPath($doc);
$elements = $xpath->query("//a[contains(.,'contact')]");
while(list( , $node) = each($elements)) {
	echo $node->asXML();
}

Mais ça ne me renvoie rien... pourtant j'ai vérifié à la main et il y a bien des liens qui contiennent "contact" : /

cf php.net

Edit :
En fait si je met un echo "test"; dans ma boucle ça n'affiche toujours rien donc je suppose que c'est ma requête xpath qui ne renvoie pas de résultat, y aurait-il une erreur de syntaxe ?

Capture de lien [RegEx]

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager