Récupération Email et Mots clé dans un fichier HTML
c'est un exercice d'école en faite.
je dois print (comme j'ai fait avec les url) tous les mails que je rencontre, et tout les mots clé que je rencontre dans les divers URL.
je dois simplement les récupérer betement sans les classé et savoir d'ou il viennent.
je pense que pour les mails c'est : [a-z0-9._-]+@[a-z0-9._-]{2,}\\.[a-z]{2,4}
et pour les mots clé : meta keywords
mais j'ai aucune idée comment les récupérers.
voici mon code actuel :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
| import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.io.Reader;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import javax.swing.text.BadLocationException;
import javax.swing.text.EditorKit;
import javax.swing.text.SimpleAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
public class robot {
private static List<String> visitedURL = new ArrayList();
public static void main(String[] args) {
collectURL("http://www.bde-ges.com");
}
private static void collectURL(String myurl){
try {
// Chargement de la page
URL url = new URL(myurl);
URLConnection uconnection = url.openConnection();
Reader rd = new InputStreamReader(uconnection.getInputStream());
// Lecture du document
EditorKit kit = new HTMLEditorKit();
HTMLDocument doc = (HTMLDocument) kit.createDefaultDocument();
doc.putProperty("IgnoreCharsetDirective", new Boolean(true));
kit.read(rd, doc, 0);
// Parcour des balises de lien
HTMLDocument.Iterator it = doc.getIterator(HTML.Tag.A);
while (it.isValid()) {
SimpleAttributeSet s = (SimpleAttributeSet) it.getAttributes();
String link = (String) s.getAttribute(HTML.Attribute.HREF);
if ((link != null)&& !(visitedURL.contains(link))){
// ajout des liens trouvés à la List
System.out.println(link);
ecrire("C:/Users/log.txt", link);
visitedURL.add(link);
collectURL(link);
}
it.next();
}
} catch (BadLocationException ex) {
Logger.getLogger(robot.class.getName()).log(Level.SEVERE, null, ex);
} catch (IOException ex) {
Logger.getLogger(robot.class.getName()).log(Level.SEVERE, null, ex);
}
}
} |
Quelqu'un saurait m'aider svp :oops: ?
Merci d'avance