Html parsing recursifs sur un site / dossiers
Bonjour ,
J'ai chercher une api pour parser des fichiers html (pour un site ou dans une arborescence de fichier) .
Je pense pouvoir me débrouiller avec http://htmlparser.sourceforge.net/ et https://filesearch.dev.java.net/ .
L'idée est de lister tous les liens du site . Donc pour l'instant j'arrive à lister les liens d'une page avec html Parser :
Citation:
Parser parser = new Parser("C:\\optimisation.asp");
//Parser parser = new Parser("http://www.developpez.net/index.html");
TagNameFilter filter = new TagNameFilter ("a");
NodeList lesA = parser.parse (filter);
FileWriter fileW = new FileWriter(Conf.REP_RESULT+Conf.FILE_RESULT);
NodeIterator nodeIterator = lesA.elements();
while (nodeIterator.hasMoreNodes()){
Node node = nodeIterator.nextNode();
//Node node = lesA.elementAt(i);
if (null != node){
String [] lesChilds =node.toString().split(";");
if(null!= lesChilds &&lesChilds.length > 0){
System.out.println("a romu"+lesChilds[0] );
fileW.write(""+lesChilds[0]+"\n");
}
}
}
fileW.close();
Par contre pour la recherche des fichiers contenant des liens , je vais regarder https://filesearch.dev.java.net/ .
Ma question porte surtout sur la recherche récursive de fichiers.
Sinon si quelqu'un connait d emeilleurs outils, je suis preneur.
Merci