Besoin d'un coup de main pour l'installation d'un module

**mobscene** · 22/12/2006, 14h18

Je bosse actuellement sur un crawler, j'ai mon propre serveur DNS mais j'aimerai que mon crawler possède lui aussi sont propre "dns reseolver" que je vais intégrer a la lib HTTP::Async que j'ai modifier , j'ai trouvé la lib gnu/adns ici http://dotat.at/prog/adns-perl/

en perl mais je n'arrive pas a l'installer j'ai lancé makefile mais il me dit qu'il ne trouve pas perl 5 et miniperl

bref je comprend rien lol

Pouvez vous m'indiquer la marche a suivre ?

mici

**pospos** · 22/12/2006, 14h32

tu a aussi un mode asynchrone dans Net:

NS (bgread)

**mobscene** · 22/12/2006, 14h55

Ah cool je vais voir sa de suite , je veux que mon crawler passe par sont resolver intégré si mon dns tombe en rade lol

**pospos** · 22/12/2006, 17h24

mais c'est un client DNS aussi en fait.
Aknd tu dis ton dns tu veux dire un serveur dns?
dans tous les cas tu a besoin d'un serveur dns, et je ne sais pas si c'est facile (ou rentable) d'en integrer un à ton programme.
la bonne solution est d'avoir un client DNS asynchrone (pour pas bloquer) et avec un bon cache (avec un LRU et une expiration), et une liste de DNS alternatifs (dans ton os) pour si l'un plante

**mobscene** · 22/12/2006, 19h59

Thx Pospos, par contre chose qui n'a rien a voir heu voila j'utilise sqlite comme cache pour mon crawler seulement c'est vraiment pas performant sa prend plus de 5 mn pour enregistrer 15 000 liens

j'ai codé une lib de gestion reposant sur un hash sérialisé mais par exemple si le crawler veut supprimer http://www.free.fr et que c'est http://www.free.fr/ qui est enregistré dans le hash sa marche pas

j'ai aussi pensé a une file d'attente sous forme de fichier plat mais comme rien ne garantie que les liens seront crawlé dans l'ordre dans lequel ils sont dans le fichier sa marche pas non plus

donc voila je cherche une solution potable merci et désolé pour le poste hors-sujet mais sa commence a me taper sur le système

**pospos** · 22/12/2006, 22h04

pour les perfs avec sqlite il faut absolument utiliser des transactions, sinon les inserts sont vraiment lent. Si tu veux un cache rapide je te conseil plutot BerkeleyDB.
Pour tes url il te faut les normaliser avant de pouvoir les comparer (avec le module URI par exemple), et aussi virer le fragment en fin d'url (apres le #).
En memoire viva ca prend pas mal de place si tu utilise une hash, mais tu peux deja gagner un peu en utilisant un md5 de l'url (voir la moitié d'un md5) à la place de l'url elle meme.
En fait je bosse exactement sur ce genre de chose depuis pas mal de temps, et on a bcp de solutions qu'on devrait bientot mettre en open source, mais ca tarde pour des raisons à la con...

Besoin d'un coup de main pour l'installation d'un module

Modules Perl

Vue hybride

Discussions similaires

Partager

Partager