Théorie de moteur de recherche

**Royd938** · 15/06/2006, 10h20

Bonjour à tous,

Je voudrais créer un moteur de recherche pour un site de taille moyenne mais qui devrait cependant prendre pas mal d'ampleur dans le futur... Où puis-je trouver de la théorie la-dessus quelque soit le langage ?

Merci d'avance...

**titoumimi** · 15/06/2006, 10h27

J'avait trouvé cet article très interessant, qui explique le principe de fonctionnement du moteur de recherche de SPIP

Je pense que tu peux très largement t'en inspirer

**Royd938** · 15/06/2006, 12h40

Ok, cool c'est tout à fait l'idée que je m'en faisais...

Maintenant j'ai une autre question. Toute mes données (articles...) sont stockées dans des fichiers(XML) donc je sépare totalement le contenu de l'affichage... Seulement, il n'y a aucun lien entre les données et la page (url) dans laquelle les données vont être affichées... Il faut donc que mon moteur parcours au moment de l'indexation les pages PHP telles qu'elles sont envoyées au client Web, donc les pages web contenant les données générées la plupart du temps par XML/XSL... Je veux donc le code source des pages dans lesquelles il n'y a plus aucune trace du code PHP vu que celui-ci aura déjà été interprété...

Comment puis-je faire cela en PHP(5) ?

Merci d'avance...

**remyli** · 15/06/2006, 18h01

Je sais pas comment marche le moteur de recherche de SPIP mais pour ceux que je connais : google et phpdig ( que je te conseil cf ici ) ils se comportent comme des clients normals (toi et moi) sauf qu'il ont une mémoire de ouf ... ^^
Donc ils parcourent tes fichiers générer par tes script php sans en voir le code.

(au passage si tes articles possédent des mots clef n'oubli pas de les ajouter au mots clefs de tes pages html.)

**Hervé Saladin** · 15/06/2006, 19h22

oui, voila, SoF_AzraeL a raison.
Il ne faut pas lire le contenu des fichiers sources, mais il faut que ton moteur de recherche télécharge la page html en envoyant une requete http au serveur, tout comme le ferait un navigateur web.
Pour faire ça en php, je te conseille d'utiliser CURL qui est très bien fait et largement documenté

Sinon, une autre solution, plus compliquée à mettre en place mais bien plus puissante est d'indexer directement tes fichiers XML, comme ça tu pourras potentiellement faire des recherches sur la valeur de n'importe quel type de tag xml.
Il y a un outil spécialisé la dedans, mais qui n'est pas en PHP mais en Java, c'est Lucene.
C'est un outil très puissant, mais assez complexe, donc qui n'est justifié que pour des gros projets.

**jeff_!** · 15/06/2006, 20h42

Il y a un outil spécialisé la dedans, mais qui n'est pas en PHP mais en Java, c'est Lucene.

le moteur de recherche proposé avec le zend_framework se base sur lucence mais j'en sais pas plus

Théorie de moteur de recherche

EDI, CMS, Outils, Scripts et API PHP

Vue hybride

Discussions similaires

Partager

Partager