Précédent   Forum des professionnels en informatique > Bases de données > MySQL > SQL Procédural
SQL Procédural Forum d'entraide sur les triggers, les procédures stockées et les fonctions en MySQL
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 03/12/2007, 17h38   #1
Invité de passage
 
Inscription : août 2007
Messages : 17
Détails du profil
Informations forums :
Inscription : août 2007
Messages : 17
Points : 1
Points : 1
Par défaut Indexation full-text le bon choix ?

Bonjour à tous

J'utilise depuis plusieurs années déjà la recherche full-text pour mes données, j'en suis assez satisfait, mais j'ai du mettre en place plusieurs restrictions pour ne pas faire tomber mon serveur.

Je me pose quelques questions suite à la lecture de cette page : Indexation documentaire & bases de données

Je suis en train de mettre en place un system quasi identique, et je me pose de plus en plus de questions à propos de la performance de cette méthode, et sur les possibilités de tries des données (principalement: la possibilité de faire remonter en premier les textes ayant le plus grand nombre de fois le mot rechercher.)
Ce qui m'attire dans cette méthode c'est la possibilité de traiter chaque mot indépendament, pour par exemple leur attribuer un status.

la table texte comprendra entre 2 et 10 millions de lignes
la table mot comprendra dans les 150 à 300 milles mots.

A votre avis quel modèle de données sera le plus performant : la recherche full text ou bien l'indexation des mots et une table de référence ?

Merci !
Sindel est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/12/2007, 11h44   #2
Invité de passage
 
Inscription : août 2007
Messages : 17
Détails du profil
Informations forums :
Inscription : août 2007
Messages : 17
Points : 1
Points : 1
Ma question n'est pas assez précise ? Ou bien personne n'a fait ce genre de test ?
Sindel est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/12/2007, 13h01   #3
Membre Expert
 
Avatar de Sivrît
 
Inscription : février 2006
Messages : 953
Détails du profil
Informations personnelles :
Âge : 30
Localisation : France, Paris (Île de France)

Informations forums :
Inscription : février 2006
Messages : 953
Points : 1 189
Points : 1 189
La question est plutôt propre, mais je soupçonne que peu de monde par ici ait vraiment de l'expérience avec les indexes FULLTEXT. Du coup on se sent un peu timides pour conseiller quelqu'un qui a passé quelques années dessus

Personnellement je n'ai guère trouvé que http://www.pui.ch/phred/archives/200...e-schemas.html et http://www.pui.ch/phred/archives/200...nce-tests.html qui concernent uniquement des tags et trouve que ça dépend de la répartition/sélectivité des mots. L'idée de cumuler les deux système pourrait être intéressante pour ce qui est de lier des données aux mots.

Cependant je n'ai pas l'impression (mais c'est vraiment un avis) que l'une ou l'autre des solutions change l'ordre de grandeur des performances. Pour cela il faudrait peut-être regarder du côté de solutions externes comme sphinx ou lucene par exemple.

Voilà pour mes 3 centimes.
Sivrît est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 05/12/2007, 15h33   #4
Invité de passage
 
Inscription : août 2007
Messages : 17
Détails du profil
Informations forums :
Inscription : août 2007
Messages : 17
Points : 1
Points : 1
Les liens que tu à donné sont très intéressants, et répondent en partie à mes questions, les méthodes par tags ne semblent pas vraiment adapter aux gros volume de données, la performance baisse de façon exponentiel pour les tags alors que le full text baisse de façon linéaire.

Lucene et sphinx sont certainement plus performant mais la mise en place et l'utilisation sont beaucoup plus contraignantes.

Au final je vais certainement utiliser les 2 systèmes, car les deux ont des avantages, je vais faire des tests et voir par moi même si la baisse de performance est acceptable... ou pas.


J'utilise depuis plusieurs années la recherche full text, mais je ne suis pas un expert loin de là ^^

D'ailleurs si quelqu'un peut m'indiquer ou mettre le fichier du paramètre ft_stopword_file ça m'interesse !

ft_stopword_file = "stopword.txt" ?
ou bien
ft_stopword_file = "/chemin/vers/stopword.txt" ?

Merci !
Sindel est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 27/12/2007, 12h18   #5
Invité régulier
 
Inscription : août 2007
Messages : 18
Détails du profil
Informations forums :
Inscription : août 2007
Messages : 18
Points : 8
Points : 8
Salut tous :
Je suis à la recherche d'autres méthodes d'indexation qu'lqu'un peut m'aider???
Nessma est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 02h10.


 
 
 
 
Partenaires

Hébergement Web