Html parsing recursifs sur un site / dossiers

Bonjour ,

J'ai chercher une api pour parser des fichiers html (pour un site ou dans une arborescence de fichier) .

Je pense pouvoir me débrouiller avec http://htmlparser.sourceforge.net/ et https://filesearch.dev.java.net/ .

L'idée est de lister tous les liens du site . Donc pour l'instant j'arrive à lister les liens d'une page avec html Parser :

Parser parser = new Parser("C:\\optimisation.asp");
//Parser parser = new Parser("http://www.developpez.net/index.html");
TagNameFilter filter = new TagNameFilter ("a");
NodeList lesA = parser.parse (filter);

FileWriter fileW = new FileWriter(Conf.REP_RESULT+Conf.FILE_RESULT);
NodeIterator nodeIterator = lesA.elements();
while (nodeIterator.hasMoreNodes()){
Node node = nodeIterator.nextNode();
//Node node = lesA.elementAt(i);
if (null != node){

String [] lesChilds =node.toString().split(";");

if(null!= lesChilds &&lesChilds.length > 0){
System.out.println("a romu"+lesChilds[0] );
fileW.write(""+lesChilds[0]+"\n");

}

}
}

fileW.close();

Par contre pour la recherche des fichiers contenant des liens , je vais regarder https://filesearch.dev.java.net/ .

Ma question porte surtout sur la recherche récursive de fichiers.

Sinon si quelqu'un connait d emeilleurs outils, je suis preneur.

Merci

API standards et tierces Java

Vue hybride

Discussions similaires

Partager

Partager