Parsing HTML et problème de filtre via XPath
Bonjour,
j'ai un petit problème d'XPath qui en théorie devrait être simple à résoudre, mais je me suis fait quelques noeuds au cerveau, j'aurai besoin d'un oeil extérieur là-dessus...
Voici mon problème, je parse un page HTML dont j'essaie d'extraire un liste de photos. Pour cela j'utilise des chemins XPath.
http://www.airliners.net/search/phot...nct_entry=true
Pour l'instant mon xpath est le suivant
Code:
//A[@target='_blank']/IMG
Je choppe toutes les images qui ont pour parent un lien avec en target "_blank"
ça marche pas mal, sauf qu'il me récupère des images en trop, les gif d'enveloppe dans la case photographer.
Une idée comme ça serait de filtrer sur les "A" qui n'ont pas d'attribut "class", mais je sais pas faire ça, j'ai quand même testé :
Code:
//A[@target='_blank' and !@class]/IMG
Mais ça marche pas...
Voilà, si une âme charitable pouvait se pencher sur ce problème ça serait sympa :)
EDIT :
Finalement j'ai réussi à résoudre ce problème, en fait fallait utiliser l'opérateur not()
=>
Code:
//A[@target='_blank' and not(@class)]/IMG
Par contre j'ai un autre problème. Qui y ressemble, du coup je dois également parser l'adresse suivante :
http://www.planepictures.net/netsear...&stype=airline
Mais idem, il me retourne la petite image "Edit Details" (dans le bandeau gris).
Voilà si quelqu'un a une idée pour ce problème là, et petite question bonus, y a-t-il possibilité d'optimiser mon xpath ? Là je pense que c'est un peu bourrin...
Merci.