Différencier les url des documents et celles des pages web
Salut à tous,
Je suis en train de faire un petit cms. J'ai pas vraiment de problème, mais je me demande comment faire un truc, si vous pouviez me donner quelques conseils :D
Voilà, je récupère dans une string le contenu au format HTML.
Avec une regex je récupère et parcours tous les liens (balise a).
Ce que je voudrais faire, c'est que si le lien mène vers un document (pdf, image, txt, etc), ce document est téléchargé sur le serveur, et le lien est modifié pour pointer vers le fichier du serveur.
Et si le lien est celui d'une page web, php le laisse tel quel.
Le truc que je me demande comment faire, c'est pour différencier ces 2 types de liens.
J'ai pensé faire une liste de tous les documents les plus courants, mais il y en a beaucoup, je risque d'en oublier et en plus c'est pas top optimisation.
Sinon pour voir si c'est une page web, là encore c'est compliqué : si le lien est juste un nom de domaine, ou s'il comporte une ancre, ou des variables get... c'est pas évident de prendre en compte toutes les situations.
Voilà j'ai fait quelques recherches là dessus mais j'ai rien trouvé de concluant.
Avez vous des idées ?