Algorithme d'un moteur de recherche

**didi78** · 13/12/2008, 14h49

Bonjour,

je cherche à optimiser la recherche sur mon site car ma base de donnée contient de plus en plus de données.

Imaginons que je dois trouver l'information parmi 200.000 enregistrements et même plus par la suite.

Pour le moment, l'algorithme est simple :

> l'utilisateur tape une chaine de caractère "je cherche l'information"

> découpage des mots clés considérés utiles [0]->"cherche", [1]->"information"

> Ensuite recherche de tous les enregistrements avec ces deux mots clés. Création d'un premier tableau de résultat

> Ensuite on attribue à chaque résultat un nombre de points suivant une formule simple :

points = nombre mots clefs présent dans l'enregistrement * ponderance (fonction de l'importance du mot clef)

> Tri décroissant en fonction du nombre de points

> Affichage des résultats page par page.

Cependant rechercher parmi tant d'information cela risque de prendre de plus en plus de temps. Je voulais savoir si vous connaissiez des informations concernant les algo de recherche ? J'ai cherché sur le net j'ai trouvé que des infos sur l'algo par dichotomie.

A bientôt

Adrien.

**Rakken** · 18/12/2008, 16h57

Dans ce que tu présentes, ce qui prend du temps, c'est la phase :

> Ensuite recherche de tous les enregistrements avec ces deux mots clés. Création d'un premier tableau de résultat

Une des idées que tu peux utiliser, c'est d'indexer le contenu de tes enregistrement. En gros, tu crée une table avec 4 champ (le 4eme est optionnel) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
mot_clef / id_enregistrement / nb_apparition / phrase de contexte
Avec mot_clef + id_enregistrement en clef primaire.
Phrase de contexte : un extrait de ton enregistrement, genre 30 caractères avant et 50 après, à régler à l'usage et suivant le contenu.

Ensuite, tu vas parser tous tes enregistrements, et pour chaque mot, creer un enregistrement dans ta base qui indique où tu as trouvé ce mot, et combien de fois il apparait dans l'enregistrement en question.
Cette étape là peut prendre pas mal de temps machine si ta base est grande, mais elle n'est faite que de temps en temps quand tu le décides.
Après, quand quelqu'un rentre un mot, au lieu d'aller voir tes enregistrements, tu vas directement faire un select sur ta table d'indexation where 'mot_clef' like "tonmotderecherche" pour récuperer l'id des enregistrements qui t'interessent.
Puis tu reprend à ton étape d'attribution de points et de pondération.

L'intéret est que la partie chronophage du traitement est faite "avant", pour augmenter la rapidité à la lecture.

La table d'indexation risque d'être franchement volumineuse (pour chaque enregistrement de ta table source tu as une ligne par mot unique) et longue à générer mais avec un index sur "mot_clef", tu as la garanties que les informations sont triées, donc recherche dichotomique. En 20 itérations max la base de donnée aura trouvé tes infos, autant dire, rien du tout par rapport au fait de parser à chaque fois tes 200 000 enregistrements.

**didi78** · 20/12/2008, 16h39

Effectivement ce serait pratique de créer une table parallèle qui reprend la table principale.

Je testerai ton idée, mais d'avance c'est évidant qu'il y a un gros intérêt : la base principale se retrouve déchargé de toutes les requêtes...

Le risque c'est de devoir mettre à jour les 100.000 infos chaque jour héhé

**Alp** · 20/12/2008, 16h47

Je ne sais plus quel moteur de recherche utilisait une technique de ce genre. Ce qui est certain c'est que ça améliore nettement la rapidité de recherche... Pour la soumission d'infos tu t'en fous, pour peu que tu lances des crons/robots qui s'occupent de le faire, à leur rythme mais presque en permanence, par exemple.

**Graffito** · 21/12/2008, 01h17

Bonjour,

Dans le cadre d'un serveur, la technique la plus performante est de créer l'index en mémoire au (re)démarrage du serveur et de le maintenir lors des mises à jour.

Suivant la taille de l'index (nombre de mots différents et nombre d'enregistrements moyen par mot) , il pourra être totalement ou partiellement en mémoire.

**Graffito** · 21/12/2008, 01h23

La table d'indexation risque d'être franchement volumineuse (pour chaque enregistrement de ta table source tu as une ligne par mot unique)

il sera plus performant de mettre un enregistrement par mot et de gérer des Blob contenant la liste des Id des enregistrements reférencés.
Prévoir une allocation par blocs (Blobs partiellement remplis) pour ne pas agrandir les blobs à chaque ajout d'une reférence.

Algorithme d'un moteur de recherche

Algorithmes et structures de données

Vue hybride

Discussions similaires

Partager

Partager