1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210
|
/*
* HTMLDocumentLinks.java 1.0
*
* Copyright (c) 1999 Emmanuel PUYBARET - eTeks.
* All Rights Reserved.
*
*/
import java.io.*;
import java.net.*;
import java.util.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
// Classe derivee de HTMLDocument pour permettre de specifier
// un reader different dans la methode getReader ()
public class HTMLDocumentLinks extends HTMLDocument
{
// Ensemble des ancres de ce fichier HTML
private Vector anchors = new Vector ();
// Ensemble des liens URLs trouves dans ce fichier
private Vector urls = new Vector ();
// Ensemble des URLs mal ecrites dans ce fichier
private Vector malformedURLs = new Vector ();
// Constructeur
public HTMLDocumentLinks (URL file)
{
// Memorisation de la base du fichier HTML
setBase (file);
}
public final Vector getAnchors ()
{
return anchors;
}
public final Vector getURLs ()
{
return urls;
}
public final Vector getMalformedURLs ()
{
return malformedURLs;
}
private void addAnchor (String anchor)
{
// Ajout de l'ancre a l'ensemble des ancres
anchors.addElement (anchor);
}
private boolean ignoreURL (String urlString)
{
// Ajout uniquement des URLs relatives a ce fichier
// (les fichiers sans protocole defini avec ':').
// Eventuellement vous pouvez filtrer differemment les
// URLs (pas de cgi par exemple,...)
return urlString.indexOf (':') >= 0;
}
private void addURL (String urlString)
{
if (!ignoreURL (urlString))
try
{
// Fabrication de l'URL relative a ce fichier
// pour l'ajouter a l'ensemble des URLs qu'il reference
URL url = new URL (getBase (), urlString);
// Sous Java 1.2.1, bug sur la construction des URLs
// si urlString commence par # avec le protocole file
// => construction differente de l'URL dans ce cas
if (urlString.startsWith ("#"))
url = new URL (getBase ().toString () + urlString);
if (!urls.contains (url))
urls.addElement (url);
}
catch (MalformedURLException e)
{
malformedURLs.addElement (urlString);
}
}
// Methode outrepassee pour founir un reader different
public HTMLEditorKit.ParserCallback getReader (int pos)
{
return new LinkReader ();
}
// Les methodes de cette classe sont rappelees par
// le parser HTML suivant les differents tag HTML lus.
// Ici, le but recherche est de garder une trace de tous
// les tags qui font appels a des URLs (fichiers HTML, images,...).
private class LinkReader extends HTMLEditorKit.ParserCallback
{
// Methode appelee quand un tag de debut est rencontre
public void handleStartTag (HTML.Tag tag, MutableAttributeSet att, int pos)
{
String attribute;
if (tag.equals (HTML.Tag.A)) // Tags <A NAME=...> ou <A HREF=...>
{
attribute = (String)att.getAttribute (HTML.Attribute.NAME);
if (attribute != null)
addAnchor (attribute);
else
{
attribute = (String)att.getAttribute (HTML.Attribute.HREF);
if (attribute != null)
addURL (attribute);
}
}
else if (tag.equals (HTML.Tag.APPLET)) // Tag <APPLET CODE=...>
{
attribute = (String)att.getAttribute (HTML.Attribute.CODE);
if (attribute != null)
{
String archive = (String)att.getAttribute (HTML.Attribute.ARCHIVE);
if (archive != null)
// Branchement sur le fichier d'archive s'il existe
attribute = archive;
else
if (!attribute.endsWith (".class"))
attribute += ".class";
// Recherche du repertoire eventuel relatif a l'applet
String codebase = (String)att.getAttribute (HTML.Attribute.CODEBASE);
if (codebase != null)
if (codebase.endsWith ("/"))
attribute = codebase + attribute;
else
attribute = codebase + '/' + attribute;
addURL (attribute);
}
}
else if ( tag.equals (HTML.Tag.BODY) // Tag <BODY BACKGROUND=...>
|| tag.equals (HTML.Tag.TABLE) // Tag <TABLE BACKGROUND=...>
|| tag.equals (HTML.Tag.TR) // Tag <TR BACKGROUND=...>
|| tag.equals (HTML.Tag.TD)) // Tag <TD BACKGROUND=...>
{
attribute = (String)att.getAttribute (HTML.Attribute.BACKGROUND);
if (attribute != null)
addURL (attribute);
}
}
// Methode appelee quand un tag simple est lu
public void handleSimpleTag (HTML.Tag tag, MutableAttributeSet att, int pos)
{
String attribute;
if ( tag.equals (HTML.Tag.FRAME) // Tag <FRAME SRC=...>
|| tag.equals (HTML.Tag.IMG)) // Tag <IMG SRC=...>
{
attribute = (String)att.getAttribute (HTML.Attribute.SRC);
if (attribute != null)
addURL (attribute);
}
else if (tag.equals (HTML.Tag.AREA)) // Tag <AREA HREF=...>
{
attribute = (String)att.getAttribute (HTML.Attribute.HREF);
if (attribute != null)
addURL (attribute);
}
}
// HTMLEditorKit.ParserCallback definit aussi d'autres methodes
// qu'il est inutile d'outrepasser ici (tag de fin, commentaires,
// corps de texte,...)
}
// Methode main () d'exemple de mise en oeuvre, prend en argument
// un nom de fichier HTML sous forme d'URL, par exemple :
// java HTMLDocumentLinks file:/disk/dir1/index.html
public static void main (String args [])
{
try
{
// Ouverture du fichier contenu dans l'argument 0
URL fileURL = new URL (args [0]);
Reader urlReader = new BufferedReader (
new InputStreamReader (fileURL.openStream ()));
// Creation d'une instance de parser
HTMLDocumentLinks doc = new HTMLDocumentLinks (fileURL);
// Parsing du fichier HTML avec Swing
new HTMLEditorKit ().read (urlReader, doc, 0);
urlReader.close ();
// Listing des ancres et des URLs trouvees dans le fichier
System.out.println ("Liste des ancres :");
for (Enumeration e = doc.getAnchors ().elements ();
e.hasMoreElements (); )
System.out.println (e.nextElement ());
System.out.println ("\nListe des URLs :");
for (Enumeration e = doc.getURLs ().elements ();
e.hasMoreElements (); )
System.out.println (e.nextElement ());
}
catch (IOException e)
{
System.out.println ("Probleme d'acces a l'URL : " + args [0]);
}
catch (BadLocationException e)
{ }
}
} |
Partager