|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Membre habitué
![]() |
Bonjour à tous,
Je voudrais créer un moteur de recherche pour un site de taille moyenne mais qui devrait cependant prendre pas mal d'ampleur dans le futur... Où puis-je trouver de la théorie la-dessus quelque soit le langage ? Merci d'avance...
__________________
C++, C# and Sql Server lover |
|
|
00
|
|
|
#2 |
|
Expert Confirmé
![]() ![]() Inscription : décembre 2003 Messages : 3 717 ![]() |
J'avait trouvé cet article très interessant, qui explique le principe de fonctionnement du moteur de recherche de SPIP
Je pense que tu peux très largement t'en inspirer
__________________
Globalement inoffensif Merci de respecter les règles du forum. Aucune question technique par MP ! _______________________________________________________________________ La rubrique Ruby / Rails recrute. Contactez moi ! _______________________________________________________________________ Cours Ruby et Ruby on Rails (RoR) - FAQ Ruby / Rails - Livres Ruby / Rails Ajax facile avec Ruby on Rails, Prototype, script.aculo.us et les RJS Tutoriaux HTML/CSS et PHP |
|
|
00
|
|
|
#3 |
|
Membre habitué
![]() |
Ok, cool c'est tout à fait l'idée que je m'en faisais...
Maintenant j'ai une autre question. Toute mes données (articles...) sont stockées dans des fichiers(XML) donc je sépare totalement le contenu de l'affichage... Seulement, il n'y a aucun lien entre les données et la page (url) dans laquelle les données vont être affichées... Il faut donc que mon moteur parcours au moment de l'indexation les pages PHP telles qu'elles sont envoyées au client Web, donc les pages web contenant les données générées la plupart du temps par XML/XSL... Je veux donc le code source des pages dans lesquelles il n'y a plus aucune trace du code PHP vu que celui-ci aura déjà été interprété... Comment puis-je faire cela en PHP(5) ? Merci d'avance...
__________________
C++, C# and Sql Server lover |
|
|
00
|
|
|
#4 |
|
Membre habitué
![]() Inscription : avril 2005 Messages : 272 ![]() |
Je sais pas comment marche le moteur de recherche de SPIP mais pour ceux que je connais : google et phpdig ( que je te conseil cf ici ) ils se comportent comme des clients normals (toi et moi) sauf qu'il ont une mémoire de ouf ... ^^
Donc ils parcourent tes fichiers générer par tes script php sans en voir le code. (au passage si tes articles possédent des mots clef n'oubli pas de les ajouter au mots clefs de tes pages html.)
__________________
Orthographe => Message Privé constructif svp |
|
|
00
|
|
|
#5 |
|
Membre chevronné
![]() Développeur Web Inscription : décembre 2004 Messages : 636 ![]() |
oui, voila, SoF_AzraeL a raison.
Il ne faut pas lire le contenu des fichiers sources, mais il faut que ton moteur de recherche télécharge la page html en envoyant une requete http au serveur, tout comme le ferait un navigateur web. Pour faire ça en php, je te conseille d'utiliser CURL qui est très bien fait et largement documenté Sinon, une autre solution, plus compliquée à mettre en place mais bien plus puissante est d'indexer directement tes fichiers XML, comme ça tu pourras potentiellement faire des recherches sur la valeur de n'importe quel type de tag xml. Il y a un outil spécialisé la dedans, mais qui n'est pas en PHP mais en Java, c'est Lucene. C'est un outil très puissant, mais assez complexe, donc qui n'est justifié que pour des gros projets.
__________________
Ne cliquez pas sur ce lien |
|
|
00
|
|
|
#6 | |
|
Membre expérimenté
![]() Inscription : octobre 2004 Messages : 872 ![]() |
Citation:
|
|
|
|
00
|
|
|
#7 |
|
Membre Expert
![]() Inscription : mai 2006 Messages : 1 294 ![]() |
si toutes tes données sont dans des fichiers, tu peux oublier ces pistes car lorsque tu auras des 10aines de milliers de fichiers ca va provoquer une charge serveur enorme a chaque recherche ....
puisque la recherche est pour ton site (1 seul site), tu peux faire un script qui parse et analyse toutes les données des XML pour extraire et stocker tous les mots dans un BD + un lien sur le fichier source. de cette facon tu lances une generation de la BD de recherche seulement quand il y a eu des changements dans les XML et les utilisateurs n'utilisent pas ce lourd script mais une recherche qui sera tres legere et rapide sur une BD parfaitement indexé |
|
00
|
|
|
#8 |
|
Membre habitué
![]() |
Effectivement, je ne pense pas avoir besoin d'un outil spécifique surtout que la charge de travail ne sera jamais énorme... Je vais jeter un coup d'oeil à CURL...
Merci beaucoup pour votre aide !!!
__________________
C++, C# and Sql Server lover |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com