Text mining et full text search

Version imprimable

09/07/2007, 10h17
icebe

Text mining et full text search

Je cherche à exploiter l'index full text search afin d'arriver via data mining à un arbre décisionnel.
Le choix du full text search vient du fait que j'indexe des documents sous différents formats (doc,ppt,pdf,...) et pas seulement du texte brut.
J'ai regardé sur la toile mais je n'ai pas trouvé d'informations à ce sujet.
Mon problème principal vient du fait que le full text search utilise son propre index qui est stocké en externe de MS SQl-2005.
Je n'ai donc pas de source de données avec une liste de mots et leur poids pour chaque document indexé.

Y aurait-il quelqu'un qui aurait déjà fait ce genre de traitement ?
09/07/2007, 11h14
ylarvor

recherche plein texte.

Bonjour,

je peux t'indiquer comment mettre en place un catalogue, un index et effectuer des recherches plein texte à l'aide du mot cle CONTAINS sur une colonne de base de données. Par contre, je ne sais pas faire de recherche sur un document exterieur genre word ou pdf.

Cet article peut t'aider : http://weblogs.asp.net/wallym/archiv...28/382060.aspx
09/07/2007, 14h35
icebe

Merci pour l'info mais mon full text fonctionne parfaitement.
J'avais déja trouvé et utilisé ce lien en or.
Ce serait même utile de mettre cette info dans les FAQ si un admin lit ce document.
Ce qui m'avait posé problèmes était le script pour autoriser la DB a utiliser le Ifiler.

Ici mon problème est un pas plus loin. J'essaye d'avoir un minimum de probabilités sur base d'une série de mots.
Pour sortir les clusters un index basé sur les mots est indispensable.
Dans le SSIS il y a des outils (Termextraction & Term Lookup) mais ils ne semblent fonctionner que pour un champ TXT.
Je trouve dommage que Microsoft n'ai pas prévu une interface full text search
avec analysis services.