用matlab做聚类分析|江阴雨辰互联

2024年3月15日发(作者：)

用matlab做聚类分析

MATLAB提供了两种方法进行聚类分析：

一、利用clusterdata 函数对数据样本进行一次聚类，这个方法简洁方便，其特点是

使用范围较窄，不能由用户根据自身需要来设定参数，更改距离计算方法；

二、步聚类：（1）用pdist函数计算变量之间的距离，找到数据集合中两辆变量之间

的相似性和非相似性；（2）用linkage函数定义变量之间的连接；（3）用cophenet函数

评价聚类信息；（4）用cluster函数进行聚类。

下边详细介绍两种方法:

1、一次聚类

Clusterdata函数可以视为pdist、linkage与cluster的综合，即Clusterdata函数调

用了pdist、linkage和cluster，用来由原始样本数据矩阵X创建系统聚类，一般比较简

单。

clusterdata函数的调用格式：T=clusterdata(X,cutoff)

输出参数T是一个包含n个元素的列向量，其元素为相应观测所属类的类序号。输入

参数X是

np

的矩阵,矩阵的每一行对应一个观测（样品），每一列对应一个变量。Cutoff 为

阈值。

（1）当0

Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,’cutoff’，cutoff) ；

（‘cutoff’指定不一致系数或距离的阈值，参数值为正实数）

（2）Cutoff>>2时，T=clusterdata(X,cutoff) 等价于

Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z, ‘maxclust’，cutoff) ；

（‘maxclust’指定最大类数，参数值为正整数）

2、分步聚类

（1）求出变量之间的相似性

用pdist函数计算出相似矩阵，有多种方法可以求距离，若此前数据还未无量纲化，

则可用zscore函数对其标准化

【pdist函数：调用格式：Y=pdist(X,’metric’)

说明：X是M*N矩阵，为由M个样本组成，每个样本有N个字段的数据集

metirc取值为：’euclidean’：欧氏距离（默认）‘seuclidean’：标准化欧氏距离;

‘mahalanobis’：马氏距离;闵科夫斯基距离：‘ minkowski’;绝对值距离：

‘ cityblock’… 】

pdist生成一个M*(M-1)/2个元素的行向量，分别表示M个样本两两间的距离。这

样可以缩小保存空间，不过，对于读者来说却是不好操作，因此，若想简单直观的表示，

可以用squareform函数将其转化为方阵，其中x(i,j)表示第i个样本与第j个样本之的距

离，对角线均为0.

（2）用linkage函数来产生聚类树

【linkage函数：调用格式：Z=linkage(Y,’method’)

说明：Y为pdist函数返回的M*(M-1)/2个元素的行向量，

method可取值：‘single’：最短距离法（默认）；’complete’：最长距离

法； ‘average’：未加权平均距离法；’weighted’:加权平均法

‘centroid’：质心距离法； ‘median’：加权质心距离法； ‘ward’：内平方

距离法（最小方差算法）】

返回的Z 是一个系统聚类树矩阵，它是一个(M-1)*3的矩阵，其中前两列为索引标识，

表示哪两个序号的样本可以聚为同一类，第三列为这两个样本之间的距离。另外，除了M

个样本以外，对于每次新产生的类，依次用M+1、M+2、…来标识。

为了表示Z矩阵，我们可以用更直观的聚类数来展示，方法为：dendrogram(Z), 产

生的聚类数是一个n型树，最下边表示样本，然后一级一级往上聚类，最终成为最顶端的

一类。纵轴高度代表距离列。

另外，还可以设置聚类数最下端的样本数，默认为30，可以根据修改

dendrogram(Z,n)参数n来实现，1

所有叶节点。

（3）用cophenet函数评价聚类信息

【cophenet函数: 调用格式：c=cophenet(Z,Y)

说明：利用pdist函数生成的Y和linkage函数生成的Z计算系统聚类树的cophenetic

用matlab做聚类分析

发表回复

评论列表（0条）

联系我们

400-800-8888

用matlab做聚类分析

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888