Problèmes lors de la classification hiérarchique ascendante

**marouame** · 29/02/2012, 11h41

Bonjour,
J'ai des fichiers txt de tailles supérieures 250000 lignes et 17 colonnes.
Et, j'aimerai lancer la classification hiérarchique ascendante (CHA) tout d'abord sur ces fichiers un par un.
Mais j'obtiens l'erreur suivante pour un fichier de 28 ligne comme premier test:

Columns 365 through 378

   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN
Warning: ward's linkage specified with non-Euclidean dissimilarity matrix. 
> In linkage at 171

Le fichier comporte les lignes ayant la forme suivante:

0 0 5.7487e+007 1 709.679 3.66707e+008 7 562.07 2.37053e+009 1 765.347 1.82988e+010 1 464.948 1.82988e+010 1 464.948

Est ce qu'à cause des valeurs exponentiels?

Par la suite, je veux lancer la classification pour n fichiers et construire par la suite une matrice comportant les données de n fichiers pour pouvoir lancer la CHA sur n fichiers.
Mais sûrement j'aurais le problème de mémoire pour pdist.
Y a t il une solution pour remédier à ce problème?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
 
clear all
close all
clc
variablesAtester = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17];
files=dir('C:/MATLAB/DataClassification/d*.txt');
nbrfiles = size(files);
for cptnbrfiles=1:nbrfiles(1,1)
fileName = files(cptnbrfiles,1).name;
pathFile = strcat('C:/DataClassification/',fileName);
[pathstr, name, ext] = fileparts(pathFile);
 
%------ load data -----
features_data = load (pathFile, '-ascii');
dim_features = size(features_data);
numb_pixels = dim_features(1,1);
 
newPixel = 1;
features_data_clean = zeros(numb_pixels,17);
for pixels = 1:numb_pixels
    if((features_data(pixels,variablesAtester(4))==0) && (features_data(pixels,variablesAtester(5))==0))
        features_data_clean(newPixel,:) = features_data(pixels,variablesAtester); %-- Alors on le rajoute au nouveau tableau clean
        newPixel = newPixel+1;
    end
end
 
features_norm = zeros(size(features_data_clean));
%------ Normaliser - Centrer reduire les donnees -------
for i=1:15
    features_norm(:,i) = (features_data_clean(:,i)-mean(features_data_clean(:,i)))/sqrt(var(features_data_clean(:,i)));
end
 
dim = size(features_norm);
pixelsNumber = dim(1,1);
Wgts = [1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17,1/17]; %-- Poids pour la ponderation des variables
weuc = @(XI,XJ,W)(sqrt(bsxfun(@minus,XI,XJ).^2 * W'));
%--------- distance between observations -- dist = euclid, mahalanobis, correlation or chebychev
Y = pdist(features_norm, @(Xi,Xj) weuc(Xi,Xj,Wgts))
 
%-------- Create hierarchical cluster tree ------
Z = linkage(Y,'ward');
 
inc  = inconsistent(Z)
 
%-------- display the hierarchical tree ------
H = dendrogram(Z,'colorthreshold',2.3)
 
%utiliser l'inconsistance comme la critère pour la partitionnement
%	clus = cluster(tree, 'cutoff', cutoff, 'depth', 5);
C = cluster(Z, 'maxclust', 20, 'depth', 5)
end

Merci,
Cordialement,
Maroua

Invité · 29/02/2012, 12h33

Bonjour,

Ta variable Y (et donc features_norm) semble comporter des valeurs NaN, ce qui te donne ce message Warning.

Problèmes lors de la classification hiérarchique ascendante

MATLAB

Discussions similaires

Partager

Partager