IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

API standards et tierces Java Discussion :

Différencier une page web d'un fichier normal


Sujet :

API standards et tierces Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2003
    Messages
    422
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2003
    Messages : 422
    Par défaut Différencier une page web d'un fichier normal
    Bonjour,

    Je parcours récursivement un site Internet pour en dresser la carte. Seulement, lorsque je suis un lien et que j'ouvre un fichier, je n'ai pas de moyen de savoir s'il s'agit d'une page web ou d'un fichier quelconque.

    J'avais pensé à chercher la balise <html>, ce qui aurait prouvé qu'il s'agit d'une page web, mais il suffit d'écrire cette balise dans un fichier texte, et mon astuce ne fonctionne plus.

    Comment faire ?

  2. #2
    Membre éclairé
    Inscrit en
    Juillet 2003
    Messages
    407
    Détails du profil
    Informations forums :
    Inscription : Juillet 2003
    Messages : 407
    Par défaut Re: Différencier une page web d'un fichier normal
    Citation Envoyé par MiJack
    Bonjour,

    Je parcours récursivement un site Internet pour en dresser la carte.
    c pas clair
    c à dire tu parcours le repertoire à travers java ??
    si oui tu peux tester sur l'extention : si elle fait partie de (htm , html , jsp , php .... ) donc c une page web ....

    explique un peu comment tu fais pr pouvoir t'aider

  3. #3
    Membre éclairé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2003
    Messages
    422
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2003
    Messages : 422
    Par défaut Re: Différencier une page web d'un fichier normal
    Citation Envoyé par peppena
    c à dire tu parcours le repertoire à travers java ??
    si oui tu peux tester sur l'extention : si elle fait partie de (htm , html , jsp , php .... ) donc c une page web ....

    explique un peu comment tu fais pr pouvoir t'aider
    Voici mon processus :

    - J'ouvre le fichier index.***
    - J'analyse le code pour repérer les liens vers les autres pages
    - J'ouvre récursivement toutes les pages, ce qui me permet d'avoir la carte du site

    Le problème, c'est que quand je suis un lien, je ne peux pas savoir s'il s'agit d'une page web ou d'un fichier normal. Tu me dis de regarder l'extension, le problème c'est qu'il existe bon nombre d'exensions pour les pages web (htm, html, asp, aspx, php, php3, jsp, ....).

    Si demain une nouvelle extension est créé, mon programme va prendre la page web avec cette nouvelle extension comme étant un fichier, puisqu'il ne connaîtra pas cette exension. Enfin tu vois ce que je veux dire ?

    Je cherche un point commun entre toutes les pages web, pour être sûr que quand mon programme va analyser le code de ce fichier, il puisse déterminer avec exactitude : ceci est une page web ou ceci est un fichier quelconque.

  4. #4
    Membre expérimenté
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    220
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 220
    Par défaut
    le problème c'est qu'il existe bon nombre d'exensions pour les pages web (htm, html, asp, aspx, php, php3, jsp, ....).
    Ouep, puis si tu analyses les liens pour savoir, tu as pire, tu peux faire des adresses sans extensions avec les servlets...

    A priori, mieux vaut effectivement regarder sur le flux lui meme...

    Verifier sur <html> ne me parait pas délirant, mais un peu insuffisant...
    Genre, sur <html>, <head> - </head>, <body> - </body> et </html>

    Si tu sais que le site donne des pages bien construites (i.e. proprement), regarde sur plusieurs enchainements de balises, avec les ouvertures, et les fermetures a la fin... Si tu as l'ensemble, bien encastré comme il faut, ca devrait aller... Si un fichier txt contient tous ces élements, là, tu n'as pas de chance, sauf si c'est pour un cours html...

  5. #5
    Membre éclairé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2003
    Messages
    422
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Mai 2003
    Messages : 422
    Par défaut
    Regarder l'enchaînement de balises me paraît être une bonne solution.

    Je vais y aller avec ça.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Modifier le contenu d'une page web : modifier un fichier XML
    Par Linnya dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 06/02/2013, 08h33
  2. copier le contenu d'une page web dans un fichier texte
    Par wassila dans le forum C++Builder
    Réponses: 30
    Dernier message: 28/08/2005, 22h27
  3. |VB6] Comment Lister les liens vers des fichiers d'une page web
    Par Mayti4 dans le forum VB 6 et antérieur
    Réponses: 8
    Dernier message: 18/01/2005, 18h17
  4. Réponses: 2
    Dernier message: 16/07/2004, 09h30
  5. Insérer un fichier dans une page web
    Par Mad666 dans le forum ASP
    Réponses: 6
    Dernier message: 05/05/2004, 11h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo