Text mining et full text search
Je cherche à exploiter l'index full text search afin d'arriver via data mining à un arbre décisionnel.
Le choix du full text search vient du fait que j'indexe des documents sous différents formats (doc,ppt,pdf,...) et pas seulement du texte brut.
J'ai regardé sur la toile mais je n'ai pas trouvé d'informations à ce sujet.
Mon problème principal vient du fait que le full text search utilise son propre index qui est stocké en externe de MS SQl-2005.
Je n'ai donc pas de source de données avec une liste de mots et leur poids pour chaque document indexé.
Y aurait-il quelqu'un qui aurait déjà fait ce genre de traitement ?