-
Titre d'un URL donné
Bonjour,
je souhaite que vous m'aidez dans ceci : je veux écrire une méthode, à la quelle je fais passer un URL, et elle me rend le titre affiché par le navigateur.
Exemple : Si je donne "www.google.com" comme argument, elle me retourne "Google" (titre indiqué sur l'onglet). Merci pour votre aide :oops:
-
Voici les étapes que ton programme doit réaliser :
- Récupérer le contenu de la page
- Parser ce résultat à la recherche de la balise de titre "title"
Pour la suite, on pourra t'aider lorsque tu auras commencé à écrire du code et que tu seras bloqué sur un point précis.
-
JDOM
Je pense qu'une fois le contenu de la page récupéré, il serait d'ailleurs judicieux d'utiliser JDOM pour chercher la balise title plus facilement :)
-
du HTML c'est pas du XML mais du SGML ...
-
Pourquoi pas tout simplement des regex? Le header titre ne devrait pas être trop difficile à localiser avec une regex plutôt simple.
-
Exact mais il doit bien y avoir un framework pour le SGML alors non? enfin pour moi ça devrait fonctionner quand même JDOM je pense puisque SGML c'est du XML standardisé non?
-
Non. SGML est moins contraignant que XML. Je ne suis pas sûr du lien de parenté exact, mais je crois que c'est plutôt l'inverse: XML serait un SGML standardisé [edit: je veux dire un sous ensemble plus contraignant, plus standardisé, en quelque sorte]. JDOM va s'étouffer sur du HTML, à mon avis.
-
L'XML c'est du SGML et pas l'inverse.
SGML permet notamment de se passer de fermer les balises, dans ce cas on se base sur la DTD. Et sans DTD impossible de reconstituer un arbre.
J'ai pas trouvé d'API Java pour le SGML à part le parser Swing. La regex est une idée si les pages sont simples.
-
de plus le html n'est pas toujours valide.
Regardez du coté de NekoHTML pour parserdu HTML en arbre DOM.
-
ok merci pour ces précisions ^^ ça m'évitera d'avoir ce genre de problème un jour ou l'autre :)