聚类分析算法
聚类分析又称聚类分析,是研究样本或指标的分类问题的统计分析方法,也是数据挖掘的重要算法。聚类分析由几种模式组成。通常,模式是度量的向量。聚类分析基于相似度,一个聚类中的模式比不在同一个聚类中的模式有更多的相似度。
对于聚类算法,大部分是通过SPSS软件来实现的,通常是通过导入数据和选择聚类方法来实现。本节使用MATLAB软件实现基于14种不同聚类分析方法的样本聚类。
14种聚类方法
(1)最长距离法
X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'euclid');M=squareform(D);Z=linkage(D,'complete');H=dendrogram(Z);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(2)最短距离法
X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'euclid');M=squareform(D);Z=linkage(D,'single');H=dendrogram(Z);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,'cutoff',0.8);
(3)综合聚类子程序
X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];T=clusterdata(X,0.8);Re=find(T=5)
(4)重心法和标准欧氏距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'seuclid');M=squareform(D);Z=linkage(D,'centroid');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(5)重心法和欧氏距离平方
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'euclid');D2=D.^2;M=squareform(D2);Z=linkage(D2,'centroid');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D2);T=cluster(Z,3);
(6)重心法和精度加权距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];[n,m]=size(X);stdx=std(X);X2=X./stdx(ones(n,1),:);D=pdist(X2,'euclid');M=squareform(D);Z=linkage(D,'centroid');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(7)最短距离法&基于主成分的标准欧氏距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];[E,score,eigen,T]=princomp(X);D=pdist(score,'seuclid');M=squareform(D);Z=linkage(D,'single');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(8)平均法和标准欧洲距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'seuclid');M=squareform(D);Z=linkage(D,'average');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(9)重量法和标准欧洲距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'seuclid');M=squareform(D);Z=linkage(D,'weighted');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(10)最短距离法和马氏距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'***hal');M=squareform(D);Z=linkage(D,'single');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(11)重心法和数据的标准化欧几里得距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];[n,m]=size(X);mv=mean(X);st=std(X);x=(X-mv(ones(n,1),:))./st(ones(n,1),:);D=pdist(X,'euclid');M=squareform(D);Z=linkage(D,'centroid');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(12)最长距离法&欧几里德距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'euclid');M=squareform(D);Z=linkage(D,'complete');[H tPerm]=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(13)平均法和相似系数
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];D=pdist(X,'cosine');M=squareform(D);Z=linkage(D,'centroid');T=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
(14)基于主成分的最短距离法和标准欧氏距离
S=['福冈';'合肥';'武汉';'长沙';'桂林';'温州';'成都'];X=[16.21492 2000 -8.2 6.2; 15.7 970 2209 -20.6 1.9; 16.3 1260 2085 -17.3 2.8; 17.2 14221726 -9.5 4.6; 18.8 1874 1709 -4.9 8.0; 17.9 1698 1848 -4.5 7.5; 16.3 976 1239-4.6 5.6];[E,score,eigen,T]=princomp(X);PCA=[score(:,1),score(:,2)];D=pdist(PCA,'seuclid');M=squareform(D);Z=linkage(D,'single');H=dendrogram(Z,'labels',S);xlabel('City');ylabel('Scale');C=cophenet(Z,D);T=cluster(Z,3);
本文来自尔岚投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/504088.html