Bonjour à tous,
j'ai un petit soucis de compréhension quand au problème suivant :
J'ai une ensemble de points liés à 8 variables, et je fais une ACP dessus. Jusque la tout va bien, mes composantes principales ont l'air correctes et quand je représente mon ACP sur mes deux premières composantes principales (qui représentent plus de 90% de la variance) tout se passe bien.
J'ai donc tenté de faire un classement via les arbres (et la j'avoue que mes connaissances personnelles en stats s’arrêtent... j'ai donc regardé plusieurs doc et essayé de les assimiler)
Bref, voici mon code et mon résultat :
Avec les fonctions pdist et linkage (car je pense que ce sont elles les clefs de mon problème), j'ai essayé un peu tous les paramètres, et ceux qui me paraissaient les plus logiques était 'average' et 'euclidien'...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 X = [tmp_stat2(:,1),tmp_stat2(:,2)]; Y=pdist(X,'euclidean'); Z=linkage(Y, 'average'); dendrogram(Z,20,'colorthreshold',30); figure; hold on; idx = cluster(Z,'maxclust',5); type_1 = find(idx == 1); plot(-score(type_1,1),score(type_1,2),'+r') type_2 = find(idx == 2); plot(-score(type_2,1),score(type_2,2),'+b') type_3 = find(idx == 3); plot(-score(type_3,1),score(type_3,2),'+c') type_4 = find(idx == 4); plot(-score(type_4,1),score(type_4,2),'+m') type_5 = find(idx == 5); plot(-score(type_5,1),score(type_5,2),'+k')
Sur ma figure, les groupes noirs, cian, et magenta me paraissent logiques, mais :
- le point en bas à droite (10,-3.5) aurait du se retrouver dans un espace propre, car si l'on regarde sa distance aux autres, il semble unique
- la différenciation entre bleu et rouge me parait bizarre. disons que je ne comprends pas comment des points aussi proches peuvent avoir des distance relatives qui les classent dans deux boites différentes
Auriez vous des explications ou des idées pour mieux classer mes points ?
d'avance Merci
Eric ./.
Partager