RegEx pour extraire les liens d'une page html
salut à tous,
ce que je voudrais, c'est extraire tous les liens d'une page html (balise <a href ..>).... mais on obtient pas toujours ce qu'on veut :mouarf:
j'ai d'abord essayé ceci
Code:
Pattern.compile(".*?<a\\s+href\\s*=\\s*[\"']?([^\"'>]*?)[\"']?>.*?");
cela marche bien, mais cette expression rate par exp les liens qui sont ainsi
Code:
<a href="http://site.com" title="titre" target="_blank">
donc j'ai essayé ceci
Code:
Pattern.compile(".*?<a\\s+href\\s*=\\s*[\"']?([^\"'>]*?)[\"']?[^>]*>.*?");
sans succès
et cela aussi sans succès
Code:
Pattern.compile(".*?<a\\s+href\\s*=\\s*[\"']?([^\"'>]*?)[\"']?.*?>.*?");
si quelqu'un a une idée :D