Parsing complexe de code HTML
Salut,
Voila je ne cherche pas une solution toute faite, a moins vraiment que qqun en ai une lol, mais de l'aide serais déjà très bien.
Mon objectif :
J'enregistre une page web localement sur le server, pour l'ouvrir et ainsi pouvoir parser le code html.
Je dois en faite localiser les liens <a ...>...</a> sur la page, ensuite pour chaqu'un d'eux examiner le href="..." et si celui ci est un lien vers un fichier avec l'extention .zip/.rar, alors je doit obtenir ce qui se trouve entre le <a> et le </a> (le texte linker en qq sorte).
Exemple, si dans le code HTML de la page il y a :
<a href="map/france.zip">Blabla</a>
Alors mon script devra me renvoyer "Blabla".
Voila, étant donné que je n'ai jamais fait qq chose se rapprochant de ca, je suis un peu perdu, je ne sais pas trop bien comment m'y prendre pour analyser les code html, quelles fonctions sont a ma dispositions, lesquelles seraient les plus adaptées, ..
Merci beaucoup si qqun peut m'aider.
PS : Peut-être qu'il y a une librairie PHP gratuite permettant de faire ca ?