IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

Creer un moteur de recherche de grande envergure avec perl


Sujet :

Langage Perl

  1. #1
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut Creer un moteur de recherche de grande envergure avec perl
    Bonjour je suis étudiant et pour l'année prochaine ont doit tous mettre sur pied un projet X ou Y des amies et moi avons déçidé de mettre au point un moteur de recherche d'assez grande envergure c'est pour cela qu'on commence maintenant . Nous voudrions avoir vos avis la dessus.

    Nous avons pensé a une architecture de ce type :



    merci de vos avis

  2. #2
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2006
    Messages
    68
    Détails du profil
    Informations personnelles :
    Âge : 49
    Localisation : France

    Informations forums :
    Inscription : Mars 2006
    Messages : 68
    Points : 46
    Points
    46
    Par défaut
    salut,
    moi je cherche à créer un moteur de recherche à partir d'un ensemble déjà connu de sites: c dur à faire?

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    427
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 427
    Points : 459
    Points
    459
    Par défaut
    la partie la plus gourmande sera surement l'indexation (et tu peu oublier les bases de donnée SQL pour ca: c'est bon pour faire joujou mais ca vaut iren en indexation fulltext)
    Je te conseil de regarder Kinosearch (moteur d'indexation, mais c'està toit de crawler et d'extraire le texte)
    Et puis jette aussi un coup d'oeil à Nucth (java, basé sur lucene) pour avoir une idée de l'architecture à adopter.
    En gros ton systeme ddevrait faire la meme chose au dessus de Kinosearch que Nutch fait au dessus de lucene.

    sinon comme autre moteur d'indexation accessible en Perl tu a CLucene, Xapian.
    Je te deconseil Plucene (affreusement lent) et Swish-e (non incremental, du moins pas de maniere native)

  4. #4
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    A quel étape sont rempli les BDD ? Et que comptez vous indexer exactement ?

    --
    Jedaï

  5. #5
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2006
    Messages
    68
    Détails du profil
    Informations personnelles :
    Âge : 49
    Localisation : France

    Informations forums :
    Inscription : Mars 2006
    Messages : 68
    Points : 46
    Points
    46
    Par défaut
    quelqu'un a de la doc sur la création d'un moteur de recherche?
    en gros j'ai une liste de sites qui m'intéresse et je souhaiterais pouvoir faire des requêtes par rapport à des mots clefs

  6. #6
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    Citation Envoyé par Jedai
    A quel étape sont rempli les BDD ? Et que comptez vous indexer exactement ?

    --
    Jedaï

    Ce graphique ne représente que la partie recherche !!!! pour ce qui est de l'indexation ont vas tous simplement lacher notre robot sur Dmoz, et indexer 5 millions de pages

  7. #7
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    Pour ce qui est du robot au début ont avais tabler pour LWP:arallel::UserAgent mais vue la consommation mémoire hallucinante du module on a décidé d'utiliser POE

  8. #8
    Membre confirmé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    427
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 427
    Points : 459
    Points
    459
    Par défaut
    je me repete, mais la partie la plus importante est la partie indexation. Si vous comptez utiliser une RDBM pour faire ca vous irez pas tres loin (à moins de depnser des fortunes dans du matos)

  9. #9
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    Oui oui Pospos on étudie Kinosearch en ce moment , pour ce qui est du robot la seul difficulté que je rencontre ( le bot c'est mon taf ) c'est l'utilisation de HTTP::Headers dans POE je voudrais implementer cela

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    my $headers = HTTP::Headers->new(
        Accept => [qw(
                      text/html
                      application/xhtml+xml
                      application/x-javascript
                      application/x-httpd-php
                      application/asp
                      text/xml
                  )]
      );
    On ne commencera pas l'indexation avant d'avoir fini le robot et surtout compris le fonctionnement de Kinosearch

  10. #10
    Membre confirmé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    427
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 427
    Points : 459
    Points
    459
    Par défaut
    je ne connais pas bien POE, mais si tu a acces à une HTTP::Request alors tu peux y mettre ton HTTP::Headers sans probleme

  11. #11
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    J'ai réussie a mettre mes headers car POE utilise HTTP::Request::Common comme ceci
    HTTP::Request::Common qw(GET);

    donc pour mettre mes headers sa a été façile j'ai tout simplement fait

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $kernel->post( ua => request => got_response => GET( $url, $headers) );

  12. #12
    Membre confirmé
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    427
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 427
    Points : 459
    Points
    459
    Par défaut
    si c'est pas indiscret, vous faites ca dans quel cadre? projet de fin d'etude? but commercial?
    meme question pour piotr

  13. #13
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    C'est pour les études, l'an prochain on aura un projet a présenté en fin d'année et nos avons choisit de faire un moteur de recherche du coup ont commence tôt, si il marche bien ont le mettra sans doute sur CPAN ou SourceForge

  14. #14
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219

  15. #15
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2006
    Messages
    68
    Détails du profil
    Informations personnelles :
    Âge : 49
    Localisation : France

    Informations forums :
    Inscription : Mars 2006
    Messages : 68
    Points : 46
    Points
    46
    Par défaut
    salut,

    je suis débutant en perl, au niveau du moteur de recherche, le but serait pour moi de faire un moteur qui ciblerait mes centres d'intérêts. Plutôt que de parcourir une liste de site placé dans mes favoris sous IE afin d'accéder à une information, je lancerais mon moteur qui aurait en entrée ma liste de site. par exemple, si j'ai besoin d'un nouveau ventilateur pour ma bécane, je tape par ex "SDRAM PC133" et j'ai en sortie une proposition de liens.
    en fait c'est un mini projet par lequel je vais pouvoir progresser en PERL. en général j'apprend un nouveau langage soit en programant des jeux, ou bien en faisant un mini projet, c plus pratique je trouve

    Citation Envoyé par pospos
    si c'est pas indiscret, vous faites ca dans quel cadre? projet de fin d'etude? but commercial?
    meme question pour piotr

Discussions similaires

  1. Réponses: 0
    Dernier message: 27/04/2010, 15h15
  2. créer moteur de recherche pour terminaux mobile avec j2me
    Par alaa.cadabra dans le forum Java ME
    Réponses: 0
    Dernier message: 15/03/2010, 15h41
  3. comment creer un moteur de recherche access 2007
    Par angell dans le forum Requêtes et SQL.
    Réponses: 7
    Dernier message: 01/06/2008, 19h49
  4. [Technique] Index, comment font les moteurs de recherche ?
    Par bat dans le forum Décisions SGBD
    Réponses: 4
    Dernier message: 25/10/2002, 15h41

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo