Différencier une page web d'un fichier normal
Bonjour,
Je parcours récursivement un site Internet pour en dresser la carte. Seulement, lorsque je suis un lien et que j'ouvre un fichier, je n'ai pas de moyen de savoir s'il s'agit d'une page web ou d'un fichier quelconque.
J'avais pensé à chercher la balise <html>, ce qui aurait prouvé qu'il s'agit d'une page web, mais il suffit d'écrire cette balise dans un fichier texte, et mon astuce ne fonctionne plus.
Comment faire ?
Re: Différencier une page web d'un fichier normal
Citation:
Envoyé par MiJack
Bonjour,
Je parcours récursivement un site Internet pour en dresser la carte.
c pas clair :roll:
c à dire tu parcours le repertoire à travers java ??
si oui tu peux tester sur l'extention : si elle fait partie de (htm , html , jsp , php .... ) donc c une page web ....
explique un peu comment tu fais pr pouvoir t'aider
Re: Différencier une page web d'un fichier normal
Citation:
Envoyé par peppena
c à dire tu parcours le repertoire à travers java ??
si oui tu peux tester sur l'extention : si elle fait partie de (htm , html , jsp , php .... ) donc c une page web ....
explique un peu comment tu fais pr pouvoir t'aider
Voici mon processus :
- J'ouvre le fichier index.***
- J'analyse le code pour repérer les liens vers les autres pages
- J'ouvre récursivement toutes les pages, ce qui me permet d'avoir la carte du site
Le problème, c'est que quand je suis un lien, je ne peux pas savoir s'il s'agit d'une page web ou d'un fichier normal. Tu me dis de regarder l'extension, le problème c'est qu'il existe bon nombre d'exensions pour les pages web (htm, html, asp, aspx, php, php3, jsp, ....).
Si demain une nouvelle extension est créé, mon programme va prendre la page web avec cette nouvelle extension comme étant un fichier, puisqu'il ne connaîtra pas cette exension. Enfin tu vois ce que je veux dire ?
Je cherche un point commun entre toutes les pages web, pour être sûr que quand mon programme va analyser le code de ce fichier, il puisse déterminer avec exactitude : ceci est une page web ou ceci est un fichier quelconque.