2024年3月15日发(作者:)
共词聚类分析法中的主要问题与对策
李佳
【摘 要】共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对
学科结构的分析研究.聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内
主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合
学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚
类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合
理以及容易造成没有意义类团的出现.问题的对策是:改进聚类算法、改变聚类策略、
类团的弹性划分以及对结果的创新分析能有效弥补聚类算法的不足.
【期刊名称】《情报学报》
【年(卷),期】2010(029)004
【总页数】4页(P614-617)
【关键词】共词分析;类团分析;核心词;问题与对策
【作 者】李佳
【作者单位】广东医学院图书馆,湛江,524023
【正文语种】中 文
【中图分类】教科文艺
情 报 学 报ISSN 1000-0135第 29 卷 第 4 期 614-617 , 2010 年 8 月
JOURNAL OFTHECHINASOCIETYFORSCIENTIFICAND TECHNICAL
INFORMATION ISSN1000-0135V01.29 No.4,614-617August 2010 doi :
10.3772/.1000-0135.2010.04.005共 词 聚 类 分 析 法 中 的 主 要 问 题 与
对 策李 佳 (广东医学 院图书馆 ,湛江 524023 )摘要共词 聚类分析法通过 聚
类运算 的方式对学科 主题 词进行划分 ,从而 实现对学科结 构 的分析研究 。 聚
类运算 的结果 ,通常能把共现频 次高 的词 聚 在 一起 ,而 学科 内 主题词 的 分
布 与词 的 共现关 系并 不 完全 正 向相 关 , 因此 , 聚类运算 的原理不完全符
合学科研究点 主题词分布 的方式 ,是共词 聚类分析法 中的 主要 问题 ,并 由此
造成共词聚类分析存在许多不足 的地方 ,主要表现在 :聚类不稳 定 、 聚类 不
完整 、成 员划 分不合理 以 及 容易 造 成没有 意 义类 团 的出现 。 问题 的对策
是 :改进 聚类算法 、改变 聚类策略 、类团 的弹性划分 以 及对结果 的创新分析
能有效弥补聚类 算法 的不足 。关键词共词分析类 团分析核心词问题与对策
MainProblemsinCo-wordClusteredAanalysisandTheirSolution Li Jia
( alCollege,Zhanpang524023) Abstract
Thisarticle deeplydiscusses the problemof clustering algorithm
whichhavebeenappliedtoco-wordanalysis,and many shortagesof co-
wordanalysis havebeencausedbythe differencebetweenthe cluster modelof
Clustering AlgorithmandtheDescriptordistributionmodelof
AcademicStructure,che shortcomingof co-wordclustered analysis
mainlyrepresentin the unstableresult, the incompletesubjectdivision, the
unreasonablemembercluster andthe insignificanc ,the
authorproposessomerecommendationsLosolvetheseproblems:improvingcl
usteringalgorithm,changingcluster Strategy,Flexibilitydividing clusLer
consequenceandinnovatinganalysis. Keywords co-wordanalysis,clustered-
wordsanalysis,coreword,problemandcountermeasure共词 聚类分析是一种
文献 内容分析法 。 研究者 利用共词 分 析 的基 本 原 理 概 述 学 科 领 域 的 研
究 热 点,横 向和纵 向分析领域学科 的发展过程 、特点 以 及 领域或学科之间 的
关 系 , 反 映某 个专 业 的科 学研究 水平及其发展历 史 的动 态 和 静 态 结 构 ,
拓 展 信息检 索领域 以求 帮助用 户检索信息 等…。共词 聚类 分析法的 主要实现
过 程 是 :两 两 统计 主题 词 在 同一 篇 文 献 中同时 出现 的频率 ,采用分层
聚类 的统计方式 ,把 词 间 关系 密切 的 主题词 聚集成类 ,形成一个个类 团 。
由于该分析具有 客 观和 形 象 的特 点 , 已 成 为一 种 备 受 关注 的 文献分析方
法 。 但这种 文 献分析方法仍存在一些不 足 的地 方 , 如排斥 性 、 敏感性 等
‘ 副 , 尤 其 分 层 聚类 的统计方法能在 多大程度上 表达学科主题词的分布仍存
在 一 定 的 争 议 , 需 要 进 一 步 深 入 探 讨 、解决 。1 聚 类算 法 中存 在 的
主 要 问题共词 聚类分析法通过分层 聚类运算 的方式将学 科主题词划 分为 类 团 ,
通 常认 为 一 个 类 团 代 表 一 个 研究点 。 分层 聚 类 的原 理是 :先将 n 个 元
素 ( 样 品 或变量 ) 看成 凡 类 ,然后 将性 质最 接 近 ( 或 相 似程度稿日期 :
2009 年 2 月 25 日作者简介 : 李佳 ,女 ,1978 年生 ,本科 ,馆员 ,研究方
向 :文献计量分析 。 E —mail :luby966@126. com 。 -614-情报学 ISSN
1000-0135第29卷4期614 - 6172010年8月 JOURNAL OF THE CHINA
SOCIETY FOR SCIENTIFIC AND 1000-0135 V01.29 No.4 , 614 August李佳
(此聚类运算 的原理不完全符合学科研究点 主题词分布 的方式 ,是共词 聚类分
析法 中的 主要 问题 ,并 由此造成共词聚类分析存在许多不足 的地方 ,主要表
现在 :聚类不稳 定 、 聚类 不 完整 、成 员划 分不合理 以 及 容易 造 成没有 意
义类团 的出现 。 问题 的对策是 :改进 聚类算法 、改变 聚类策略 、类团 的弹性
划分 以 及对结果 的创新分析能有效弥补聚类算法 的不足 。
MainProblemsinCo-wordClusteredAanalysisandTheirSolution
alCollege,Zhanpang524023) Thisarticle
deeplydiscusses the problemof clustering algorithm
whichhavebeenappliedtoco-wordanalysis,and shortagesof co-wordanalysis
havebeencausedbythe differencebetweenthe cluster modelof Clustering
Algorithmandthe Descriptordistributionmodelof AcademicStructure,che
shortcomingof co-wordclustered analysis mainlyrepresentin the unstable
result, the incompletesubjectdivision, the unreasonablemembercluster
andthe insignificanc ,the author
proposessomerecommendationsLosolvetheseproblems:improvingclusterin
galgorithm,changingcluster Strategy,Flexibility dividing clusLer
consequenceandinnovatinganalysis. co-wordanalysis,clustered-
wordsanalysis,coreword,problemandcountermeasure共词 聚类分析是一种
文献 内容分析法 。 研究者利用共词 分 析 的基 本 原 理 概 述 学 科 领 域 的 研
究 热点横 向和纵 向分析领域学科 的发展过程 、特点 以 及领域或学科之间 的 关
系 , 反 映某 个专 业 的科 学研究水平及其发展历 史 的动 态 和 静 态 结 构 ,
拓 展 信息检索领域 以求 帮助用 户检索信息 等…法的 主要实现过 程 是 :两 两
统计 主题 词 在 同一 篇 文献 中同时 出现 的频率 ,采用分层 聚类 的统计方式 ,
把词 间 关系 密切 的 主题词 聚集成类 ,形成一个个类 团 。由于该分析具有 客
观和 形 象 的特 点 , 已 成 为一 种 备受 关注 的 文献分析方法 。 但这种 文 献
分析方法仍存‘副尤 其 分层 聚类 的统计方法能在 多大程度上 表达学科主题词解
决 。 1聚 类算 法 中存 在 的 主 要 问题共词 聚类分析法通过分层 聚类运算 的方
式将学科主题词划 分为 类 团 , 通 常认 为 一 个 类 团 代 表 一 个研究点 。 分
层 聚 类 的原 理是 :先将 n 个 元 素 ( 样 品或变量 ) 看成 凡 类 ,然后 将性
质最 接 近 ( 或 相 似程度作者简介 : 李佳 ,女 ,1978 年生 ,本科 ,馆员 ,
研究方 向 :文献计量分析 。 E —mail :luby966@126. com 。共词 聚类分析
法 中的 主要 问题与对策最 大 ) 的 2 类合并 为一个新类 ,得到 n-1 类 ,再从
中找出最接 近 的 2 类加 以 合并变成 了 n-2 类 ,如此下去 , 最后所有 的元素
全聚在一类之 中( 凝 聚 过程 )731 , 其聚类 的特点是计算所 有成 员 间 的共
现关 系 , 把 相互依存度 高 的成 员 聚 集 成 类 团 , 见 图 l 。 图 中 的 虚 线代
表可能存在 的 共 现 关 系 , 这 是一 种 网 状 的 聚 类 方式 ,没有 明确 的聚类
中心 ,聚类结果受所有成员 共 现关系 的影 响 。 从 学 科 主题词 分 布 角 度 而
言 , 每个 研究点 由一定量 的 主题词 构 成 ,研 究 点 中存 在 一 些 用以 表达
这个研究 点 与其他研 究点 区 隔 的 主题词 。 这些 主题词尽管数量不 多 ( 一
个 或 多个 ) ,但处 于 核 心地位 ,是研究 点 的特征 词 。 学 科研究 点 主题词
分 布模式是 :特征词处 于核心地位 ,是研究点性质 的反 映与非特征词 一 起 构
成研究 点 的整 体 。 非 特征 词 尽管有发展成特征 词 的潜 在 可 能 ,但 它 们之
间 的 联 系通 常不 会影 响 到特征 词 的 独 特 作 用 , 见 图 2 。 这 是一种星状
的分布模 式 , 图 中的虚 心 圆代表研究 点 的特征词 。 如果要通过数学统计表达
研究点 主题词 的分布 ,那 么 最理想 的 统计方式 便 是这 种 能 识别 特 征词 的
星状 聚 集模式 。 从 两 图 的结构 可 以 看 出 , 分 层 聚类算法 的聚类模式不能
完全吻合学科 主题词 的 分布模式是共词 聚类 分析 法 中存 在 的主 要 问题 , 由
此所造成 的后 果是不容忽视 的 。图 l 聚类算法 的原理 ( 网状聚类 )图 2 学科
研究点主题词 分布模式 ( 星状分布 ) 2网状 聚类 所造成 的影 响 2.1 聚 类不
稳网状聚类 的主题词 聚集过程完全取决 于词对 间 的相互依存程 度 。 在 参 与
聚类 的 全体 主题词 中 , 词 对间 的相互依存性 是 非 常微 妙 的 , 容 易 受 到
词 对 共 现频率的影 响 ,对于一些发文量不 大 的研究点 ,词 间 的依存度 对词
对 共 现 的频 率很 敏感 , 词 间 的依 存 关 系也易受文献 的收集 、标 引等方面
的影 响 ,有 时一篇 文章的主 题 标 引 可 能 会 影 响 到 多 个 词 间 的依 存 关
系心3 。 由于 网状 聚类 缺乏 明 确 的 聚 类 中心 , 聚类 结果 受到所有词对共
现关系 的影 响 , 因此 ,词对共现关 系 的细微改变 ,都可能对聚类结果 产生影
响 。 此外 , 词 的共现关 系具有传递性 ,一个词在类 团 中的变化 , 与之相关
的其他词 的划 分也可能发 生变化 ,形成 “西瓜效应 ” 。 由于 网状 聚类这种
“ 敏感 ” 的聚类方式 ,使得它 的聚类结果 缺乏 稳 定 性 , 而 学 科 主题词 的
分 布处 于相对稳定状态 。 2.2 聚 类不全分层 聚类 是一 种逐层 聚集 的过程 ,
结 果 的划 分 点 由研究者的主观意志认定 。 划分点对结果分析产 生重大 的影
响 ,划 分点 越 小 ,类 团 的个 数越 多 , 类 团 的成员越少 。 由于 分层 聚 类
的局 限性 , 任何 一 个 划 分点都难 以 客 观 、 全 面 地 反 映学科研 究 点 。 有
的研 究点论文 多些 ( 强 势研究 点 ) ,有 的研究 点 论 文 相 对 少些 ( 弱势
研究点 ) ,这是学科文献分布 的普遍现象 。 如果强势研究点成员 与弱势研究点
成员存在过 多的 共现关系时 ,在聚类 时 强 势类 团 就会对 弱 势 类 团 产 生吸
附作用 。 因 为 这种 吸 附作 用 的存 在 , 使 得 单 一 的划 分点极容易 造 成弱
势类 团 得 不 到 有 效 的 生 成 , 造成聚类结果不能全面反 映学科研究点 。 尽
管 可 以 选定小 的划分点减 少 强 势类 团 的 吸 附作用 ,但过 小 的划分方式不
仅会造 成过 多 的类 团 ,也不 利 于 对类 团进行有效分析 。 2.3 聚 类不公词 对
共现关 系 网 中 ,一个词 与 多个 词 存 在 共现 关系 ,一个词也常常分布于多个
研究点 中 ,但在聚类 过程 中 ,这个词 只 能 被 关 系最 密 切 类 团 的类 团所
聚 集其他 的相关类 团则得不 到这个词 ,也就是说一个 主题词通 常只 能 出现在
一个类 团 中。 不能把每个词 公正地分布在相 关 的类 团 中 ,不 利 于 类 团 对
研究 点最 大 ) 的 2 类合并 为一个新类 ,得到 n-1 类 ,再从 中去最后所有 的
元素全聚在一类之 中( 凝 聚 过程 )731其聚类 的特点是计算所 有成 员 间 的共
现关 系 , 把 相互依存度 高 的成 员 聚 集 成 类 团 , 见 图 l 。 图 中 的 虚线代
表可能存在 的 共 现 关 系 , 这 是一 种 网 状 的 聚 类方式 ,没有 明确 的聚类
中心 ,聚类结果受所有成员 共现关系 的影 响 。 从 学 科 主题词 分 布 角 度 而
言 , 每个研究点 由一定量 的 主题词 构 成 ,研 究 点 中存 在 一 些用以 表达这
个研究 点 与其他研 究点 区 隔 的 主题词 。这些 主题词尽管数量不 多 ( 一 个
或 多个 ) ,但处 于 核心地位 ,是研究 点 的特征 词 。 学 科研究 点 主题词 分
布模式是 :特征词处 于核心地位 ,是研究点性质 的反映与非特征词 一 起 构 成
研究 点 的整 体 。 非 特征 词尽管有发展成特征 词 的潜 在 可 能 ,但 它 们之 间
的 联系通 常不 会影 响 到特征 词 的 独 特 作 用 , 见 图 2 。 这是一种星状 的分
布模 式 , 图 中的虚 心 圆代表研究 点的特征词 。 如果要通过数学统计表达研究
点 主题词的分布 ,那 么 最理想 的 统计方式 便 是这 种 能 识别 特征词 的星状
聚 集模式 。 从 两 图 的结构 可 以 看 出 , 分层 聚类算法 的聚类模式不能完全
吻合学科 主题词 的分布模式是共词 聚类 分析 法 中存 在 的主 要 问题 , 由此所
造成 的后 果是不容忽视 的 。图l聚类算法 的原理 ( 网状聚类 )2学科研究点主
题词 分布模式 ( 星状分布 ) 2.1聚 类不 稳网状聚类 的主题词 聚集过程完全取
决 于词对 间的相互依存程 度 。 在 参 与 聚类 的 全体 主题词 中 , 词对间 的相
互依存性 是 非 常微 妙 的 , 容 易 受 到 词 对 共现频率的影 响 ,对于一些发文
量不 大 的研究点 ,词 间的依存度 对词对 共 现 的频 率很 敏感 , 词 间 的依 存
关系也易受文献 的收集 、标 引等方面 的影 响 ,有 时一篇文章的主 题 标 引 可
能 会 影 响 到 多 个 词 间 的依 存 关系心3由于 网状 聚类 缺乏 明 确 的 聚 类
中心 , 聚类 结果 受到所有词对共现关系 的影 响 , 因此 ,词对共现关系 的细微
改变 ,都可能对聚类结果 产生影 响 。 此外 ,词 的共现关 系具有传递性 ,一个
词在类 团 中的变化 ,与之相关 的其他词 的划 分也可能发 生变化 ,形成“瓜效
应”由于 网状 聚类这种敏感的聚类方式 ,使 2.2聚 类不全分层 聚类 是一 种逐
层 聚集 的过程 , 结 果 的划 分点 由研究者的主观意志认定 。 划分点对结果分析
产生重大 的影 响 ,划 分点 越 小 ,类 团 的个 数越 多 , 类 团的成员越少 。 由
于 分层 聚 类 的局 限性 , 任何 一 个 划分点都难 以 客 观 、 全 面 地 反 映学科
研 究 点 。 有 的研究点论文 多些 ( 强 势研究 点 ) ,有 的研究 点 论 文 相 对
少些 ( 弱势研究点 ) ,这是学科文献分布 的普遍现象 。如果强势研究点成员
与弱势研究点成员存在过 多的共现关系时 ,在聚类 时 强 势类 团 就会对 弱 势 类
团 产生吸 附作用 。 因 为 这种 吸 附作 用 的存 在 , 使 得 单 一的划 分点极容
易 造 成弱 势类 团 得 不 到 有 效 的 生 成 ,造成聚类结果不能全面反 映学科研
究点 。 尽管 可 以选定小 的划分点减 少 强 势类 团 的 吸 附作用 ,但过 小的划
分方式不仅会造 成过 多 的类 团 ,也不 利 于 对类团进行有效分析 。 2.3聚 类不
公词 对共现关 系 网 中 ,一个词 与 多个 词 存 在 共现关系 ,一个词也常常分布
于多个研究点 中 ,但在聚类过程 中 ,这个词 只 能 被 关 系最 密 切 类 团 的类
团所 聚集其他 的相关类 团则得不 到这个词 ,也就是说一个主题词通 常只 能 出
现在一个类 团 中。 不能把每个词公正地分布在相 关 的类 团 中 ,不 利 于 类 团
对研究 点情报学报第 29 卷 第 4 期 2010 年 8 月的正确表达 。 分层 聚 类适 合
主 题 词 分 布 的“ 相对 聚 集” 不适合 “ 绝对 聚集 ”明确 的聚类划分方式不
利 于描述研究点之间 的 真实关系 。 2.4 聚 类 不 明网状 聚 类 没 有 明确 的 聚
类 中心 , 受 词 对相 互依 存性 的支配 ,这种 聚类结果具有一 定 的盲 目性 ,
容易 出现属性指 向不 明 的类 团 。 例 如 , 在 医 学类 文 献 中 较常 出现“ 预
后 ” 、 “ 随 访 研 究 ”、 “ 实 验 研 究 ”等 主 题词 , 它们通 常不是 文 献
中 的 主 要 主 题 词 而 是 起 到 修饰 、 限定作用 的次要 主题词 ,这类 主题词
在 文献 中共现 的机率较高 ,聚类 时 容 易 出现 由这 些 词 所 组 成 的类 团 ,
这样 的类 团通常不 能表达 明确 的研究点 ,造成聚类结果不 明朗。 3解 决 聚
类算 法 与研究 点 王 题词 分 布 不 一 致 的 对 策 3.1改进 聚类的算法传统 的聚
类算法是 以词 与词 间 的距离作为聚簇 的依据 , 与星状 的主题词 分布模式产生
较大 的出入 , 选择更符合学科 主题词分布方式 的聚类算 法是解决 这一 问 题 的
有 效 途 径 。 改 进 的 层 次 聚 类 方 法 有BIRCH算 法 和 CURE算 法 。
BIRCH 算 法 中引 入 两 个概念 :聚类特征 和 聚类特征树两个概念 ,通 过这两
个 概念对簇进行概括 ,利用 各个簇之 间的距离 ,采用层 次方法 的平衡迭 代对
数据 集进 行 归 约 和 聚 类 ,该算 法在 聚类 时 通 过 判 定 两 个 类 的 中心 点
阈值 进 行 聚 合。 46] , 这种 聚 合 时 更 注 重 两 类 的 中 心 点 的 计 算 。
CURE 算法 ”1 采 用 了 一 种 新 颖 的 层 次 聚 类 算 法 , 该算法 选择基 于质
心 和基于代表对象方法之 间 的中间 策 略 ,它不用 单个质心或对象来代表个簇 ,
而是选择 数据 空 间 中固定 数 目的具有 代 表性 的点 , 它 强 调 对 簇内成员 的
相似性和 不 同簇 中成员 的差异 。 尽管这 两种 改进 的 聚类算法 尚不能从根本
上解决 网状模型 的聚类模式 ,但 离星状模 型 的聚集方式更进 了一 步 , 是共词
聚类分析 的更有理想 的运算方法 。 但共词 聚 类运算毕竟借助 于 特定 的 统 计
软件平 台进 行运 算 , 而统计软件 的运 算 方式 是 相 对 固定 的 , 要 把这 些
改 进后算法融人 到统计软件 中 ,还 需要 时间 的积累 。 3.2改变 聚 类 的 策 略
国内许 多 共词 聚 类 分析 的应 用 文 献 , 在 选 择 聚 类方式时通 常选 择 没 有
中心 的 聚 类 方式 , 即在设 定聚类参数时没有指定聚集的中心‘ 引这种 聚类方
法虽 然 在一定程度上能找 出学科 的新兴研究点及不 明 朗的研究点 ,但不 利 的
一 面 是 类 团 的 中心 概念 不 突 出为类 团 的划 分 以 及 定 义 带来 很 大 的 干
扰 。 在 这 种情况下 ,有 必要 调 整 聚类 的策略 ,使类 团 的组成更 明确化 。
主要 的 方法有 : 3.2.1专 家意见 法咨 询领域 内的专家学 者 ,对 学科研 究点
进 行 大 致 的划分 ,找 出这些研究点 内的特征 主题词 , 以 这些 特征 主题词
为 中心 源 实施 聚类运算 。 尽管学者难 以 对学科 内的所有研 究 点进 行 辨认 ,
但 对 于 一 些 重 要 的或热络 的研究点 的认定具有很 高的权威性 。 并通 过指定
中心源 的聚类方式 ,不但减少聚类 的盲 目性 , 完整类 团 的成员 , 同时也 可
为 聚类 结 果 划 分 深 度 的 把握提供参考作用 。 共词 聚类分析法 与专 家 意见
法 的相互结合 ,既可 降低前者 的盲 目性 ,也可 弥补后 者 的客 观性与全 面性 。
3.2.2文 献计 量 法聚类 的结 果 是 把 共 现 关 系 的 主 题 词 对 进 行 划分 , 也
可 以 理 解 为 对 研 究 点 的 相 关 文 献 进 行 归 类 。向量 空 间模型 是 一 个
关 于 文 献 表示 的 统计模 型 ,具 有较强 的可计算 性 和 可 操作 性 , 已 被 用
于 文 本 分类 的应用 中 ,并且取得 了较好 的效果 ,运 用 这种技术可 实现对学
科文献相关性 的概要 归类[91 。 通 过 向量 空 间统计文献 间的相 关程度 , 对
每 类 相 关性 文 献 的 主题词进 行词频 统计 , 得 出 每类 文 献 的 主 题词 集 。
主 题词集 在共词 聚 类 过 程 中能 起 到 很 好 的参 考作 用 , 如在 聚类 中心 源
的选择 、类 团 的划 分 、类 团分析等 。 3.2.3反 复聚 类 法如 前 文 所 言 ,共
词 聚类 分析法 受所有 词 对 的共 现关 系 的 影 响 , 容 易 产 生 类 团 间 的 相
互 吸 附作 用 。 在逐层 聚合过程 中 ,类 团 间 吸 附力越强 , 两个类 团被 聚合
的 时 间 越 短 。 在 初 次 聚 类 时 只 划 分 出 两 个 大 类这 两个类 团 间具有较
小 的吸 附力 ,为排除类 团 间 的相互影 响 ,分别对两个大类 团进行再次 聚类运
算 , 得到 四 个 类 团 , 依 次 类 推 , 直 至 得 到 数 量 合 理 的类 团反 复聚类
的好处 是把类 团 的相 似 性 最 大 化 , 差 异性最小化 ,确保类 团 内的成员 具
有更 紧密 的联 系 。 反 复 的 聚类 ,是在 进 一 步 聚 类 的基础 上 缩 小 主 题
词 的范 围 的再次聚 类 , 达 到研 究 点 主题 词 精 确 聚 集 的 目的 。相对 聚不
适合绝对 聚集 2.4聚 类 不 明网状 聚 类 没 有 明确 的 聚类 中心 , 受 词 对相 互
依存性 的支配 ,这种 聚类结果具有一 定 的盲 目性 ,容易出现属性指 向不 明 的
类 团 。 例 如 , 在 医 学类 文 献 中较常 出现预 后、随 访 研 究实 验 研 究词它
们通 常不是 文 献 中 的 主 要 主 题 词 而 是 起 到 修饰限定作用 的次要 主题词 ,
这类 主题词在 文献 中共类团这样 的类 团通常不 能表达 明确 的研究点 ,造成解
决 聚 类算 法 与研究 点王 题词 分 布 不 一 致 的 对 策传统 的聚类算法是 以词
与词 间 的距离作为聚簇的依据 , 与星状 的主题词 分布模式产生较大 的出入 ,
选择更符合学科 主题词分布方式 的聚类算 法是解决这一 问 题 的 有 效 途 径 。
改 进 的 层 次 聚 类 方 法 有 BIRCH算 法 。BIRCH算 法 中引 入 两 个概念 :聚
类特征 和 聚类特征树两个概念 ,通 过这两个概念对簇进行概括 ,利用 各个簇之
间的距离 ,采用层次方法 的平衡迭 代对 数据 集进 行 归 约 和 聚 类 ,该算法在
聚类 时 通 过 判 定 两 个 类 的 中心 点 阈值 进 行 聚合46]这种 聚 合 时 更 注 重
两 类 的 中 心 点 的 计 算 。 CURE算法”1采 用 了 一 种 新 颖 的 层 次 聚 类
算 法 , 该算法 选择基 于质心 和基于代表对象方法之 间 的中间策 略 ,它不用
单个质心或对象来代表个簇 ,而是选择数据 空 间 中固定 数 目的具有 代 表性 的
点 , 它 强 调 对簇内成员 的相似性和 不 同簇 中成员 的差异 。 尽管这两种 改进
的 聚类算法 尚不能从根本上解决 网状模型的聚类模式 ,但 离星状模 型 的聚集
方式更进 了一 步 ,是共词 聚类分析 的更有理想 的运算方法 。 但共词 聚类运算
毕竟借助 于 特定 的 统 计软件平 台进 行运 算 ,而统计软件 的运 算 方式 是 相
对 固定 的 , 要 把这 些 改进后算法融人 到统计软件 中 ,还 需要 时间 的积累 。
内许 多 共词 聚 类 分析 的应 用 文 献 , 在 选 择 聚类方式时通 常选 择 没 有 中
心 的 聚 类 方式 , 即在设 定虽 然 在一定程度上能找 出学科 的新兴研究点及不
明朗的研究点 ,但不 利 的一 面 是 类 团 的 中心 概念 不 突出为类 团 的划 分 以
及 定 义 带来 很 大 的 干 扰 。 在 这种情况下 ,有 必要 调 整 聚类 的策略 ,使
类 团 的组成更明确化 。 主要 的 方法有 :专家意见 法咨 询领域 内的专家学 者 ,
对 学科研 究点进 行 大致 的划分 ,找 出这些研究点 内的特征 主题词 , 以 这些
特征 主题词 为 中心 源 实施 聚类运算 。 尽管学者难 以对学科 内的所有研 究 点
进 行 辨认 ,但 对 于 一 些 重 要的或热络 的研究点 的认定具有很 高的权威性 。
并通过指定 中心源 的聚类方式 ,不但减少聚类 的盲 目性 ,完整类 团 的成员 ,
同时也 可 为 聚类 结 果 划 分 深 度 的把握提供参考作用 。 共词 聚类分析法 与
专 家 意见法的相互结合 ,既可 降低前者 的盲 目性 ,也可 弥补后 者的客 观性与
全 面性 。分也可 以 理 解 为 对 研 究 点 的 相 关 文 献 进 行 归 类 。向量 空 间
模型 是 一 个 关 于 文 献 表示 的 统计模 型 ,具有较强 的可计算 性 和 可 操作
性 , 已 被 用 于 文 本 分类的应用 中 ,并且取得 了较好 的效果 ,运 用 这种技
术可实现对学科文献相关性 的概要 归类[91通 过 向量 空间统计文献 间的相 关程
度 , 对 每 类 相 关性 文 献 的 主题词进 行词频 统计 , 得 出 每类 文 献 的 主
题词 集 。 主题词集 在共词 聚 类 过 程 中能 起 到 很 好 的参 考作 用 ,如在 聚
类 中心 源 的选择 、类 团 的划 分 、类 团分析等 。如 前 文 所 言 ,共词 聚类
分析法 受所有 词 对 的共现关 系 的 影 响 , 容 易 产 生 类 团 间 的 相 互 吸 附
作 用 。在逐层 聚合过程 中 ,类 团 间 吸 附力越强 , 两个类 团被聚合 的 时 间
越 短 。 在 初 次 聚 类 时 只 划 分 出 两 个 大这 两个类 团 间具有较小 的吸 附
力 ,为排除类 团 间的相互影 响 ,分别对两个大类 团进行再次 聚类运算 ,得到
四 个 类 团 , 依 次 类 推 , 直 至 得 到 数 量 合 理 的类反 复聚类 的好处 是把
类 团 的相 似 性 最 大 化 , 差异性最小化 ,确保类 团 内的成员 具有更 紧密 的
联 系 。反 复 的 聚类 ,是在 进 一 步 聚 类 的基础 上 缩 小 主 题 词的范 围 的再
次聚 类 , 达 到研 究 点 主题 词 精 确 聚 集 的目的 。共词聚类分析法 中的主要
问题与对策 3.3对聚 类结果 划分 的弹性处理我 们 对 聚 类 结 果 的 划 分通 常采
用 一 刀 切 的方式 , 即在树状结构 图 中( 或冰柱 图 ) 中 , 以 某一点为切割
点进行划 分 。 这种划分方式是造成聚类不全和 一 个 主题词 只 能 出现在一个类
团 的直接原 因 。 如果在 划分类 团 时采用 弹性 策 略 , 每个 类 团 的 划 分根
据 实 际需要决定 。 不 应 限 定 在某 一 划 分点 上 , 更 要 考虑 到类 团 的实体
意义 与完整性 。 弹性划分方式不仅适 合学科 主题词 的分布原则 ,也 适 合“ 相
对 聚 集 ”的原则 。 能从一定程度 上缓解一个主题词 不能在 多个类中出现 的矛
盾 ,也能有效减少小类 团 出现的机率 。 弹性 的划 分方法要求研究 者具备扎实
的专业知识 。 3.4对聚 类结 果 的创 新分析分层 聚类 的类 团存在两个 弊端 :一
是 缺乏 明确 的聚集 中心 ,二是 不 能从 整 体上 把握 词 与词 间 的共 现关系 。
在进行类 团分析时应该尽量弥补 聚类算法 的不 足 。 每个研究 点 有 自身 的 特
征 词 ,类 团 是研究 点 主题词 聚集 的结果 ,类 团应该有 自己 的核心词 ,核
心词不仅在类 团 聚 集 时起 到关键 的作用 , 也是类 团 的概念 主要体现 ,把 握
类 团 的核 心 词 是 进 行类 团分 析的关键 。 粘合 力 用 以 衡 量 成员 在类 团 中
的地位 , 粘合力 最大 的几个成员 被认定 为类 团 的 核心 词 ‘m] 。 共词矩 阵
是共词 聚 类 的基础 , 矩 阵从整 体上 描述 了词对 的共现关 系 。 在 确 定 类
团 核 心 词 的基础 上 , 以 核心词分析重点 , 在 共词 矩 阵 中找 到每 个核 心
词 的 共现主题词 ,并 由此 所组 成新类 团 。 新类 团 不 仅具 有更强 的概念专
指 性 , 类 团 的相 关成 员 也得 到 高度 的聚集 。 这种类 团 的重 新 构 建过 程
中 , 只 考 虑 核 心 词与非核心词之 间 的关 系 , 非 核 心 词 之 间 的 共 现关
系不对核心词 的地位构成任何影 响 。 对类 团 的核心 词 的准确认定这 一 分析
过程 的关键 ,粘 合 力 是核心 词判定 的重要指标 , 扎 实 的专业 知识是 正 确
认定核 心 词 的前提 。 4 结 语共词 聚 类 分析法尽 管存在 不少 的 问题 ,但 聚
类的结果 ( 类 团 ) 能大体上反映学科研究点这一结论获 得广 大学者 的认 可 。
共词 聚类分析法把聚类算法应 用 到学科 主题词 的分 布研究 ,不 仅要 关 心 聚
类 算法 本身 的科学性 ,也 应 注 意 到 聚类 算 法 是 否 完 全符合 文献学 的相
关规律 。 现有 的统计平 台还难 以 从根本 上解决聚 类 算 法 与 学 科 主 题 词
的 分 布 模 式 间 的 矛 盾因此 ,综合运用 不 同的聚类策 略 、对结果 的 弹性 划
分 以及 突 出类 团 的核心词并把其放在共词矩 阵 中 进行分析 ,是提高共词 聚类
分析法 的准确性 、科学性 的有效措施 。参 考 文 献 [1]冯璐 ,冷伏海 . 共词 分
析方法理论进 展 [J] . 中 国 图 书馆学报 ,2006 ,32(162) :88-9
2 .钟伟金 , 李佳 , 杨兴菊 . 共词分析法研究 ( 三 ) ——共 词聚 类 分 析
法 的 原 理 与 特 点 [J] . 情 报 杂 志 , 2008(7) :118-120 .陈平雁 ,黄浙
明 . SSPS10.0 统计软件应用教程 [M] . 人民军医 出版社 ,2002 .钟 晓 ,马
少平 , 数据挖掘综述 [J]. 模式识别与人工智能 ,2001 , 14(1) :448-5
5 . 陈 宁 , 陈安 . 规 模 交 易 数据 库 的 一 种 有 效 聚 类 算 法 [J] , 软件学
报 ,2001 ,12(4) :475-484.邵峰 晶 , 张斌 , 于 忠 清 , 多 阈值 BIRCH 聚
类 算 法 及 其 应用 [J]. 计算机工程与应用 ,2004(12) :174-17
7 . 董健康 .数据挖掘 中 CURE 聚类算 法研究 [J] . 电脑与 电信 , 2007(4) :
14-15 .蒋颖 . 1995-2004 年文献计量学研究 的共词分析 [J]. 情报学报 ,
2006 ,25(4) :504-512 .邱宇红 ,郭继 军 , 向量 空 间模 型 在 医 学 文献相
关性研 究 中的应用 [J]. 现代 图书情报技术 ,2007(7) :63-67.钟 伟 金 , 李
佳 . 共词 分 析法 研究 ( 二 ) ——类 团 分析[J].情报杂志 ,2008(6) :141-
14
3 .( 责任 编辑 芮国章 ) rlr-ir7rnlJr-ir.n OIV].trr}.07000.O~L_U式即在树状
结构 图 中( 或冰柱 图 ) 中 , 以 某一点为切割点进行划 分 。 这种划分方式是
造成聚类不全和 一个 主题词 只 能 出现在一个类 团 的直接原 因 。 如果在划分类
团 时采用 弹性 策 略 , 每个 类 团 的 划 分根据 实际需要决定 。 不 应 限 定 在
某 一 划 分点 上 , 更 要 考虑到类 团 的实体意义 与完整性 。 弹性划分方式不仅
适合学科 主题词 的分布原则 ,也 适 合相 对 聚 集则能从一定程度 上缓解一个主
题词 不能在 多个类中出现 的矛盾 ,也能有效减少小类 团 出现的机率 。弹性 的
划 分方法要求研究 者具备扎实 的专业知识 。分层 聚类 的类 团存在两个 弊端 :
一是 缺乏 明确的聚集 中心 ,二是 不 能从 整 体上 把握 词 与词 间 的共现关系 。
在进行类 团分析时应该尽量弥补 聚类算法的不 足 。 每个研究 点 有 自身 的 特征
词 ,类 团 是研究点 主题词 聚集 的结果 ,类 团应该有 自己 的核心词 ,核心词
不仅在类 团 聚 集 时起 到关键 的作用 , 也是类 团的概念 主要体现 ,把 握类 团
的核 心 词 是 进 行类 团分析的关键 。 粘合 力 用 以 衡 量 成员 在类 团 中 的地
位 ,粘合力 最大 的几个成员 被认定 为类 团 的 核心 词m]共词矩 阵是共词 聚
类 的基础 , 矩 阵从整 体上 描述 了词对 的共现关 系 。 在 确 定 类 团 核 心 词
的基础 上 , 以核心词分析重点 , 在 共词 矩 阵 中找 到每 个核 心 词 的共现主
题词 ,并 由此 所组 成新类 团 。 新类 团 不 仅具有更强 的概念专 指 性 , 类 团
的相 关成 员 也得 到 高度的聚集 。 这种类 团 的重 新 构 建过 程 中 , 只 考 虑
核 心词与非核心词之 间 的关 系 , 非 核 心 词 之 间 的 共 现关系不对核心词 的
地位构成任何影 响 。 对类 团 的核心词 的准确认定这 一 分析 过程 的关键 ,粘
合 力 是核心词判定 的重要指标 , 扎 实 的专业 知识是 正 确认定核心 词 的前提 。
4结语的结果 ( 类 团 ) 能大体上反映学科研究点这一结论获得广 大学者 的认
可 。 共词 聚类分析法把聚类算法应用 到学科 主题词 的分 布研究 ,不 仅要 关
心 聚类 算法本身 的科学性 ,也 应 注 意 到 聚类 算 法 是 否 完 全符合文献学 的
相关规律 。 现有 的统计平 台还难 以 从根本上解决聚 类 算 法 与 学 科 主 题 词
的 分 布 模 式 间 的 矛盾因此 ,综合运用 不 同的聚类策 略 、对结果 的 弹性划
分 以及 突 出类 团 的核心词并把其放在共词矩 阵 中进行分析 ,是提高共词 聚类
分析法 的准确性 、科学性的有效措施 。参考文献钟伟金 , 李佳 , 杨兴菊 . 共
词分析法研究 ( 三 ) ——共词聚 类 分 析 法 的 原 理 与 特 点 [J] . 情 报 杂
志 , 2008 (7) :118-120 .能,200114(1) :448-55 .陈宁陈安 . 规 模 交
易 数据 库 的 一 种 有 效 聚 类 算 法 [J]软件学报 ,2001 ,12(4) :475-484.邵
峰 晶 , 张斌 , 于 忠 清 , 多 阈值 BIRCH 聚类 算 法 及 其应用 [J]. 计算机工
程与应用 ,2004(12) :174-177 .董健康 .数据挖掘 中 CURE 聚类算 法研究
[J] . 电脑与电信 , 2007(4) :14-15 .邱宇红 ,郭继 军 , 向量 空 间模 型 在
医 学 文献相 关性研究 中的应用 [J]. 现代 图书情报技术 ,2007(7) :63-67.钟
伟 金 , 李 佳 . 共词 分 析法 研究 ( 二 ) ——类 团 分析责任 编辑芮 rl r-i r7
rn lJ r. n OI V].t rr}.0 7 00 0. O ~ L_ U
【文献来源】
/academic-journal-cn_journal-china-
society-scientific-technical-information_thesis/
【相关文献】
1.教育技术学研究新思维:共词分析法——以共词聚类分析法为例进行论证 [J], 孙立会,赵蔚,杨
欣
2.基于主要主题词加权的共词聚类分析法效果研究 [J], 钟伟金
3.应用共词聚类分析法探讨我国专业思想教育现状 [J], 佟岩,刘阳,曲丽红,关晶,杨晓莉
4.利用共词聚类分析法探讨国际疾病分类相关研究文献的热点 [J], 张浩,苏晗,崔雷
5.运用共词聚类分析法研究生物信息学的学科热点 [J], 张晗,崔雷
发布者:admin,转转请注明出处:http://www.yc00.com/news/1710455305a1759742.html
评论列表(0条)