2024年3月15日发(作者:)
e 用法
e 函数是 SciPy 中用于计算层次聚类的函数之一。层次聚类是一
种将一组对象聚类成树形结构的方法,也可以称为聚类树或者树状聚类。这些树状结构表
示了数据点之间的相似性或者距离,并且将大量数据点组织成一个聚类层次结构。
在使用 e 函数时,需要传递一个距离矩阵参数,这个参数可以是
欧几里得距离、曼哈顿距离等等。该函数计算并返回一个连接矩阵,即一组合并左右子树
所需的距离。所得到的合并操作可以通过 chy 中的 dendrogram
函数可视化出来。
e 函数提供了多种合并策略,包括单连接、完全连接、平均连接、
加权平均连接等。最终的聚类结果取决于所采用的合并策略和距离度量指标。下面将分别
介绍这些参数的含义及如何使用。
参数:distance_matrix
distance_matrix 参数表示输入数据之间的距离矩阵。如果数据集中有 n 个对象,
则距离矩阵的大小将是 n x n。在调用 e 函数之前,需要使用
distance 函数来计算距离矩阵。
例如,如果有一个名为 data 的二维数值数组,其中每一行表示一个数据点,则可以
使用以下代码计算欧几里得距离矩阵:
```
from ce import pdist, squareform
distances = pdist(data, metric='euclidean')
distance_matrix = squareform(distances)
```
参数:method
method 参数表示所采用的合并策略。SciPy 支持以下几种合并策略:
* 单连接(single): 在合并聚类时,将左右子树之间距离最近的两个点之间的距离作
为两个聚类之间的距离。
* 完全连接(complete): 在合并聚类时,将左右子树之间距离最远的两个点之间的距
离作为两个聚类之间的距离。
* 平均连接(average): 在合并聚类时,将左右子树中所有点之间的距离的平均值作
为两个聚类之间的距离。
* 加权平均连接(weighted): 在合并聚类时,将左右子树中所有点之间的加权距离的
平均值作为两个聚类之间的距离。
* 矢量平均连接(vector): 在合并聚类时,将左右子树中所有向量的平均值作为两个
聚类之间的距离。
例如,如果要在加权平均连接策略下进行层次聚类,则可以使用以下代码:
metric 参数表示所采用的距离度量指标。可选的距离度量指标包括欧几里得距离、
曼哈顿距离、切比雪夫距离等等。默认使用欧几里得距离。
optimal_ordering 参数表示是否使用最优排序算法。最优排序的算法可以使叶节点
之间的连线更加清晰,但是算法的计算时间也会相应增加。默认为 False,表示不采用最
优排序算法。
例如,如果希望采用最优排序算法,则可以使用以下代码:
总体来说,e 函数可以使用多种不同的参数组合,以满足不同数据
集的需求。大多数情况下,最好对数据进行可视化,以便更好地理解聚类算法生成的树形
结构。此外,还可以使用其他 SciPy 和 NumPy 函数来处理层次聚类所产生的树状结构。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1710459901a1760501.html
评论列表(0条)