Expression régulière : Supprimer le code HTML sauf les balises <a
Bonjour à tous,
J'ai besoin de votre aide pour compléter une expression régulière que je suis en train de faire.
Le but est de récupérer le contenu d'un flux Rss en supprimant les balises HTML qui sont contenus dans la balise <description> parfois afin de garder la main sur la mise en forme.
J'y suis parvenu avec cet regex : "<[^>]*>"
Mais si dans cette balise <description> il y a des liens hypertextes (<a href='...'>bla bla</a>) je souhaiterais les conserver.
Comment puis-je modifier mon expression régulière ?
Merci par avance pour votre aide ;)
p.s : exemple d'un flux google utilisé pour mes tests :
Code:
1 2 3
| <description>
<table border="0" cellpadding="2" cellspacing="7" style="vertical-align:top;"><tr><td width="80" align="center" valign="top"><font style="font-size:85%;font-family:arial,sans-serif"><a href="http://www.lefigaro.fr/conjoncture/2012/04/25/20002-20120425ARTFIG00462-europe-draghi-reclame-un-pacte-de-croissance.php">Le Figaro</a></td></tr></table>
</description> |