Choix de l'algorithme de clustering
Bonjour,
J'ai à traiter un ensemble des documents mais je sais pas quel est le meilleur algorithme de "clustering" à choisir pour mon cas :(. Je veux essayer avec Self Organizing Map mais je ne suis pas assez convaincue.
Pour moi je veux travailler en ligne c.à.d. à chaque fois qu’un nouveau document arrive, je le traite en les comparant à ceux existants .Pour ceux existants, ils sont en forme des clusters. Donc, le nouveau document va être comparé avec le centre de chaque cluster avec une certaine mesure de similarité pour savoir à quel cluster appartient.
1. Pour travailler en ligne, je pense que la contrainte « incrémentale ‘ » doit être respectée. C.à.d. pour chaque nouveau document, je dois le comparer aux centres des clusters déjà trouvés. S’il peut appartenir à l’un d’eux ok. Sinon il doit former lui-même un nouveau cluster.
Je veux essayer avec l’algorithme SOM. Mais, j’ai un souci en ce qui concerne le respect de SOM pour cette contrainte.
2. L’arrivée des documents se fait en temps réel. Je dois donc tenir en compte la contrainte « temps réel ». J’ai encore un souci en ci concerne le respect de SOM pour cette contrainte.
3. Je veux savoir quelle mesure de similarité est la mieux appropriée pour le traitement des documents textes. J’ai encore un souci en ce qui concerne la distance euclidienne qu’elle présente la mesure la plus appropriée pour ce cas.
Pouvez-vous me guider?