hierarchy.linkage 用法

hierarchy.linkage 用法


2024年3月15日发(作者:)

e 用法

e 函数是 SciPy 中用于计算层次聚类的函数之一。层次聚类是一

种将一组对象聚类成树形结构的方法,也可以称为聚类树或者树状聚类。这些树状结构表

示了数据点之间的相似性或者距离,并且将大量数据点组织成一个聚类层次结构。

在使用 e 函数时,需要传递一个距离矩阵参数,这个参数可以是

欧几里得距离、曼哈顿距离等等。该函数计算并返回一个连接矩阵,即一组合并左右子树

所需的距离。所得到的合并操作可以通过 chy 中的 dendrogram

函数可视化出来。

e 函数提供了多种合并策略,包括单连接、完全连接、平均连接、

加权平均连接等。最终的聚类结果取决于所采用的合并策略和距离度量指标。下面将分别

介绍这些参数的含义及如何使用。

参数:distance_matrix

distance_matrix 参数表示输入数据之间的距离矩阵。如果数据集中有 n 个对象,

则距离矩阵的大小将是 n x n。在调用 e 函数之前,需要使用

distance 函数来计算距离矩阵。

例如,如果有一个名为 data 的二维数值数组,其中每一行表示一个数据点,则可以

使用以下代码计算欧几里得距离矩阵:

```

from ce import pdist, squareform

distances = pdist(data, metric='euclidean')

distance_matrix = squareform(distances)

```

参数:method

method 参数表示所采用的合并策略。SciPy 支持以下几种合并策略:

* 单连接(single): 在合并聚类时,将左右子树之间距离最近的两个点之间的距离作

为两个聚类之间的距离。

* 完全连接(complete): 在合并聚类时,将左右子树之间距离最远的两个点之间的距

离作为两个聚类之间的距离。

* 平均连接(average): 在合并聚类时,将左右子树中所有点之间的距离的平均值作

为两个聚类之间的距离。

* 加权平均连接(weighted): 在合并聚类时,将左右子树中所有点之间的加权距离的

平均值作为两个聚类之间的距离。

* 矢量平均连接(vector): 在合并聚类时,将左右子树中所有向量的平均值作为两个

聚类之间的距离。

例如,如果要在加权平均连接策略下进行层次聚类,则可以使用以下代码:

metric 参数表示所采用的距离度量指标。可选的距离度量指标包括欧几里得距离、

曼哈顿距离、切比雪夫距离等等。默认使用欧几里得距离。

optimal_ordering 参数表示是否使用最优排序算法。最优排序的算法可以使叶节点

之间的连线更加清晰,但是算法的计算时间也会相应增加。默认为 False,表示不采用最

优排序算法。

例如,如果希望采用最优排序算法,则可以使用以下代码:

总体来说,e 函数可以使用多种不同的参数组合,以满足不同数据

集的需求。大多数情况下,最好对数据进行可视化,以便更好地理解聚类算法生成的树形

结构。此外,还可以使用其他 SciPy 和 NumPy 函数来处理层次聚类所产生的树状结构。


发布者:admin,转转请注明出处:http://www.yc00.com/web/1710459901a1760501.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信