Bonjour,

tout d'abord je suis désolé si ne m'exprime bien .

je suis entrein de tester un moteur de recherche (nutch) et si vous le connaissez ce dernier doit avoir un fichier urls.txt qui contient un ensemble d'urls qu'on les passe au crawl pour les indexer , mon sousci est comment avoir le maximum d'urls possible via un script ou une stratégie qq je sais pas mais un maximum de sites pour les passer au crawl ..... comme premier test j ai extracter des urls à partir de quelque pages de alexa.com .

merci beaucoup pour vos lumieres .

Cordialemnt..
Lassaad MATHLOUTHI