Extraire des liens HTML grâce à JSoup
Bonjour, j'ai un petit script qui vérifie la présence de lien sur une page web avec Jsoup, j'ai remarqué que ci on place le lien entre <head> et </head> JSoup va considérer ce lien comme faisant partie de body :
Code:
1 2 3 4 5 6 7 8 9 10 11 12
| Document doc = Jsoup.connect(wholeUrl).userAgent("Mozilla").validateTLSCertificates(false).get();
System.out.println(doc.html()); //les liens se trouvant dans le <head> apparaissent dans le <body>
Elements links = doc.body().select("a[href]");
for (Element lnk : links) {
if (lnk.attr("abs:href").equalsIgnoreCase(urlBacklink)) {
if (lnk.attr("rel").toLowerCase().equals("nofollow")) {
throw new MyException(getErrorBundle().getString("nofollow_link"));
}
ok = true;
break;
}
} |
Savez vous comment éviter ce comportement bizarre de Jsoup ?
Merci !