Bonjour,
j'ai un petit problème d'XPath qui en théorie devrait être simple à résoudre, mais je me suis fait quelques noeuds au cerveau, j'aurai besoin d'un oeil extérieur là-dessus...
Voici mon problème, je parse un page HTML dont j'essaie d'extraire un liste de photos. Pour cela j'utilise des chemins XPath.
http://www.airliners.net/search/phot...nct_entry=true
Pour l'instant mon xpath est le suivant
Je choppe toutes les images qui ont pour parent un lien avec en target "_blank"
Code : Sélectionner tout - Visualiser dans une fenêtre à part //A[@target='_blank']/IMG
ça marche pas mal, sauf qu'il me récupère des images en trop, les gif d'enveloppe dans la case photographer.
Une idée comme ça serait de filtrer sur les "A" qui n'ont pas d'attribut "class", mais je sais pas faire ça, j'ai quand même testé :
Mais ça marche pas...
Code : Sélectionner tout - Visualiser dans une fenêtre à part //A[@target='_blank' and !@class]/IMG
Voilà, si une âme charitable pouvait se pencher sur ce problème ça serait sympa
EDIT :
Finalement j'ai réussi à résoudre ce problème, en fait fallait utiliser l'opérateur not()
=>Par contre j'ai un autre problème. Qui y ressemble, du coup je dois également parser l'adresse suivante :
Code : Sélectionner tout - Visualiser dans une fenêtre à part //A[@target='_blank' and not(@class)]/IMG
http://www.planepictures.net/netsear...&stype=airline
Mais idem, il me retourne la petite image "Edit Details" (dans le bandeau gris).
Voilà si quelqu'un a une idée pour ce problème là, et petite question bonus, y a-t-il possibilité d'optimiser mon xpath ? Là je pense que c'est un peu bourrin...
Merci.
Partager