RegEx : Extraire une partie d'une page HTML
Bonjour à tous,
J'ai un petit soucis avec l'utilisation des regex pour extraire quelques blocs d'une page HTML.
Cette page que je récupère liste plusieurs objets. Le code HTML les représentant est identique et à la forme suivante :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13
|
<img src="URL_1_TO_PARSE" style...></a>
... Diverses balise HTML
</tr>
... Diverses balise HTML
<td nowrap="nowrap">
<a href="URL_2_TO_PARSE">
"TEXT_1_TO_PARSE"</a>
<br>
"TEXT_2_TO_PARSE" |
Récupérer l'URL 1 n'est pas un problème. Les autres aussi d'ailleurs.. Seulement, je n'arrive pas à récupérer toutes les valeurs qui m'intéressent d'un coup. C'est à dire que je n'arrive pas à créer ma regex de telle sorte de lui dire :
Code:
1 2
| <img src=\"(.*/thumbs/[0-9]*.jpg)\" // Get URL_1_TO_PARSE
n'importe quoi JUSQUE <a href="MA_REGEX_POUR_URL_2_TO_PARSE |
Je bloque sur le "n'importe quoi jusqu'une certaine chaîne". J'ai essayé [\w\s\S]*, mais il prend tous le reste du code avec cette regex (normale..).
Quelqu'un aurait une idée ?
Merci :-)