Bonjour à tous,
Voilà mon problème : je cherche actuellement à miner une série de textes, provenant de zones et d'époques différentes (premier biais), dont je souhaite déterminer les rapprochements et les groupes. Il s'agit donc de clustering.
J'ai testé toute une série d'algorithmes, sous Weka (surtout K-means et EM) et sous R (packages : e1071, ade4, cluster, cclust, hclust, etc.). Pourtant, je ne suis guère satisfait de ce que j'obtiens... en fait de "simples" AFC semblent plus efficaces que toutes les "autres" méthodes de clustering, y compris des clustering sur ACP comme peut le faire le package ade4.
Bien entendu, j'ai fait varier le pruning, afin d'extraire ce qui classait le mieux mes documents... rien n'y fait... l'AFC reste largement plus stable, plus fiable je dirais.
De même, je trouve assez peu d'articles portants *directement* (j'insiste sur le directement) sur ce(s) point(s). Aurais-je mal cherché ?!
Quelqu'un aurait une idée s'il vous plaît ?
Merci beaucoup pour toute réponse. Cordialement.
Partager