几种高频词阈值计算方法的实证研究——以国内高校信息素养教育研究数

几种高频词阈值计算方法的实证研究——以国内高校信息素养教育研究数


2024年3月19日发(作者:)

023(3):30-38

晋图学刊

 2

ShanxiLibraryJournal

 

 

·信息技术·

几种高频词阈值计算方法的实证研究

———以国内高校信息素养教育研究数据为例

王勋鸿

(山东大学图书馆,山东济南250100)

摘 要:在图书情报学领域,关键词分析及共现分析是文献计量学中常用的一种研究方法,而高频词选

取是共词分析的前提,高频词选取结果直接影响共词分析的效果,因此,高频词阈值计算方法的选择尤为重

要。文章以近二十年国内高校信息素养教育研究成果为样本数据,进行基于齐普夫定律的高低频词界分法、

普赖斯定律公式法、二八定律法、自定义法、词频g指数法等五种高频词阈值方法的计算,并对高频词聚类效

果进行对比分析。结果发现,五种高频词阈值计算方法中,词频g指数法聚类效果最好,其他几种方法均不

具有普及性和通用性,但在实际的关键词分析中,还应根据具体研究对象和研究目的,选择合适的高频词取

词法。

关键词:高频词;阈值计算;聚类分析;信息素养教育

中图分类号:G250   文献标识码:A   文章编号:1004-1680(2023)03-0030-09

0 引言

基于词频的统计分析是文献计量的重要方法之

一。一般认为,一定时段内某个主题词在某领域文

献中反复出现,则表明该词所表征的主题为该领域

在相应时段内的研究热点和关注点,所以词频分析

是重要的手段,尤其是通过关键词的词频分析和词

共现分析,来反映研究对象的主题分布、研究热点和

发展趋势,是当下数据分析的重要角度和研究关注

点。这些分析和研究均是基于相应研究对象的高频

词,因此高频词阈值的确定,即高频词的选择,尤为

重要,它直接关系到分析结果的客观性,高频词阈值

选取不当则可能无法较好反映研究的热点内容和关

注点。目前,图书情报领域研究人员做共词分析,进

行高频词确定时,主要有自定义法、高低频词界分公

式法、普赖斯公式法、词频g指数方法、二八定律五

种方法。

收稿日期:2022-01-05

基金项目:山东大学“新文科服务团队建设项目”(项目编号:2022CXTD02);山东大学教改项目“新文科建设背景下研究生信

息素养教育改革研究”(项目编号:XYJG2020174)

作者简介:王勋鸿(1970-),女,博士,副研究馆员。研究方向为信息素养教育、文献计量。Email:xunh.w@sdu.edu.cn

引文格式:王勋鸿.几种高频词阈值计算方法的实证研究:以国内高校信息素养教育研究数据为例[J].晋图学刊,2023(3):30-38.

通过国内相关文献检索发现,词频统计、高频词

选词方法的理论研究相对比较滞后,在词频分析法

研究领域内存在重实践应用、轻理论研究的倾向,为

数不多的几篇论文也多局限于对齐普夫定律的验证

和补充、完善方面,缺乏对其内涵、特征、模式、流程

1]

。研究中最

等内在规律的全面系统地总结归纳

多的是通过上述既定的成熟的文献计量方法进行应

用,专门对这些高频词阈值确定方法及其合理性进

行实证研究的文章更是鲜少可见,其中刘奕杉等的

《词频分析法中高频词阈值界定方法适用性的实证

[2]

分析》和虞秋雨《共词分析中高频词阈值确定方

法的实证研究———以新冠肺炎文献高频词选取为

[3]

两文,是为数不多的对高频词选词方法进行例》

实证对比研究的论文。刘奕杉等一文,选用词频分

析法的相关研究论文为分析数据源,对比分析了自

定义法、高低频词分界公式法、普赖斯公式法三种方

Copyright©博看网. All Rights Reserved.

 

几种高频词阈值计算方法的实证研究 王勋鸿:

31

法,认为二八定律方法更适用于截取领域高频词,同

时指出目前我国高频词界定方面存在主观性强、方

法原理不明、改进方法适用性不明等问题。虞文则

选用新冠肺炎相关研究论文为样本数据,分析自定

义法、高低频词界分公式法、普赖斯公式法、词频g

指数方法四种方法,得出词频g指数的方法能取得

良好的共词聚类效果的论断。鉴于两篇论文研究数

据来源不同,研究对象的词频界分方法也不全然相

同,得出的结论不同。为了更全面客观地分析几种

阈值算法的特点,为文献文本分析提供更为客观合

理的选词理论依据,本文选择另外的样本数据,全面

指数法在内的全部五种探究含自定义方法、词频g

高频词阈值计算方法,并通过样本数据关键词共现

聚类,验证选词的实际效果,进而得出相应结论。

1 研究思路和数据来源

1.1 研究方法和实施步骤

以中国知网中收录的高校“信息素养教育”相

关主题的CSSCI(ChineseSocialSciencesCitationIn

dex,中文社会科学引文索引)论文为数据源,利用

NoteExpress和Excel进行数据管理和统计,抽取论

文关键词,进行词频统计,在此数据基础上,分别利

用五种不同的高频词阈值计算方法选取高频词,然

后利用开源可视化工具Gephi构建关键词共词矩

阵,进一步制作聚类网络图谱,进行关键词共现聚类

分析,以呈现不同选择方式下关键词的聚类效果,据

此验证不同高频词阈值选择对分析结果的影响及其

合理性,为相关的理论研究和实证研究提供一定的

参考和借鉴。

1.2 数据来源

在知网上,以主题=“信息素养教育”and主题

=“高校+高等院校+大学”为检索策略,时间选择

“2000—2020年”,来源类型为CSSCI,将上述记录

导入管理工具NoteExpress,删除无作者的会议通

知、索引、序等非学术性论文,共获得557条相关记

oteExpress进行关键词词频统计,合并同录,利用N

义词,去掉无意义词,共获得909个关键词,将关键

词出现频次从高到低进行排序,相应关键词频次统

计表见表1。

表1 “高校信息素养教育”CSSCI论文关键词词频表

Table1 CSSCIthesiskeywordfrequencytableof“informationliteracyeducationincollegesanduniversities”

序号

10

11

12

13

14

15

16

17

18

19

20

21

22

关键词

信息素养

信息素养教育

高校图书馆

MOOC

大学生

数据素养

高等教育

信息检索课

元素养

高校

数据素养教育

用户教育

美国

信息素质

信息素质教育

图书馆

教学模式

学科服务

教育模式

大数据

研究生

嵌入式教学

词频(次)

217

216

187

39

34

26

21

18

17

16

15

12

12

12

11

11

10

10

序号

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

关键词

数字素养

媒介素养教育

信息技术

信息服务

高等教育信息素养框架

高校学生

图书馆服务

在线教育

教育信息化

嵌入式信息素养教育

在线信息素养教育

高校教师

微课程

读者培训

发展趋势

图书馆游戏

数据管理

课程建设

高等院校

教师教育

教师

教育游戏

词频(次)

Copyright©博看网. All Rights Reserved.

32

晋 图 学 刊 

续表1 “高校信息素养教育”CSSCI论文关键词词频表

 2023(3) 

ContinuedTable1 CSSCIthesiskeywordfrequencytableof“informationliteracyeducationincollegesanduniversities”

序号

23

24

25

26

27

28

29

30

关键词

通识教育

翻转课堂

服务创新

媒介素养

学科馆员

信息教育

高等教育信息素养框架

教育

词频(次)

序号

53

54

55

56

57-93

94-190

191-909

关键词

阈概念

美国高校图书馆

课程改革

媒介信息

……

……

……

词频(次)

  表1统计可见,词频为1的关键词为719个。

词频为2的关键词个数97个,词频为3的共有37

个。低词频关键词数量占比高达93%,足见该研究

主题的关键词分布较为分散。

以下根据不同的高频词阈值计算方法,进行高

频词的确定,为下一步构建共现矩阵,进行关键词共

现分析作必需的数据准备。

2 不同高频词阈值选取法的实证分析

2.1 自定义阈值确定法

目前国内进行高频词分析及共现分析时,大多

采用的是自定义方法,根据刘奕杉对知网2015—

2017年174篇相关文献的调研统计,采用自定义方

法选取关键词的论文有129篇,占比高达超过

2]

74.%

。因此,这是最常见的高频词选词方法。

数据,再人工进行同类关键词的合并以及诸如研究、

特点、应用、影响等无意义关键词的删除,获得表1

数据,分析关键词词频表中的相关关键词,结合笔者

,由此对该领域的了解,此处自定义高频词阈值为5

确定词频

5的42个关键词为高频关键词,在此基

础上构建词频共现矩阵,Gephi可视化软件利用做

共现聚类图谱(见图1)。

自定义选词法,具体实施方法主要有两种,一是将研

究对象关键词导出,利用Excel或者其他词频统计

工具,进行词频计数,然后根据分析需求,自定义阈

值,进而选定高频词。第二种常见法,将检索到的数

据直接导入诸如CiteSpace、Ucinet等软件,通过关键

词中心度选取高频词,诸如《我国动物疫病风险评

估研究热点和趋势———基于CiteSpace的可视化分

4]

,该方法尽管不是自定义确定析》一文就是如此

Fig.1 Customhigh-frequency

co-occurrenceclusteringgraph

图1 自定义高频词共现聚类图谱

高频词,但这类分析软件的工作原理是根据词频多

少来确定相应的节点中心度,因此,也可归为自定义

选词方法。在此需要强调的是,CiteSpace等软件本

身就是聚类可视化分析软件,高频关键词阈值的确

定,也是为了后续的共现和聚类分析,因此,该种方

法可以直接实现聚类,无需额外计算出阈值和选定

高频词。

针对本论文数据样本,笔者用NoteExpress管理

软件中的数据分析功能,进行关键词词频分析,导出

  图中,节点标签字体大小表示词频多少,字体越

大,表示出现的次数越多;节点颜色表示关键词度

值,颜色越深,说明节点度中心性越强;连线代表关

键词之间的共现关系,连线越粗,表示二者之间的共

现关系越强。

由此可知,高校信息素养教育研究主题主要是

高校图书馆为主体的信息素养教育,相关研究主题

主要包含四类:一是基于高校图书馆开展的以大学

OOC(Massive

生和研究生为对象的信息检索,含

Copyright©博看网. All Rights Reserved.

 

 王勋鸿:几种高频词阈值计算方法的实证研究

33

OpenOnlineCourse,慕课)和翻转课堂、嵌入式教

学、在线教育等教学模式的研究;二是国外(主要是

美国)信息素养教育研究;三是数据素养、媒介素

养、数字素养、元素养的相关研究;四是《高等教育

信息素养框架》、图书馆服务、学科服务等服务创新

亦是高校信息素养教育主题研究中涉及较多的内容。

自定义高频词阈值的方法,因可以自由定义高

频词的数量,可以更好地呈现主题的多样性和聚类

关系,但最大问题是阈值的选择缺少理论依据,具有

主观性和随意性,其分析结果的科学性易引人诟病。

由表1可发现,样本数据的557篇文献共有909个

关键词,频次的跨度从1次到217次,选择频次5为

高频词阈值,纯属研究者自我选择,即使是同一领域

的研究,也存在不同研究者有不同取值标准的现象,

从而导致分析结果不一致。

2.2 齐普夫高低频词界分公式法

齐普夫定律(Zip’sLaw)是文献计量学三大定

律之一。1932年,哈佛大学的语言学教授齐普夫在

研究英文单词出现的频率时,发现如果把单词出现

的频率按由大到小的顺序排列,则每个单词出现的

频率与它的名次的常数次幂存在简单的反比关

5]

。它可以表述为:在一个包含有N个词的文句

和不适用性。

在此需要特别指出的是,由于齐普夫定律是以

英语文本为基础的,尤其是一部作品的单词研究,相

关的研究也大都限于印欧语系,尽管很多的中文研

究也证明中文作品关键词的研究满足齐普夫定律:

较早时候武汉大学语言自动处理研究所对《骆驼祥

子》一书进行统计,发现汉字在文章中的分布也符

7]

;江南大学郑晨对莫言小说的词频合齐普夫定律

8]

研究,也证实符合该定律

。但这样的实证研究,

皆是针对作品文本内容,而图情界基于结构化文献

题录数据的主题分析,用该定律界定高频词阈值是

否合适,还有待进一步研究和探讨。笔者认为,其适

用性不具有普遍性,尤其是针对某一领域一组题录

关键词的统计,不能简单依靠此方法界定高频词阈

值。

本实证案例的不适用性还在于本研究专题提取

的关键词分布较分散,虽然在词频统计前期进行了

数据的清洗,合并了同义词,删除了一些无实质意义

的泛意词,但这种清洗只能达到降噪的效果,无法完

全解决关键词分散现象。分散现象的直观表现就是

存在大量仅出现1次的关键词。词频为1的关键词

过多,最大原因是研究者标注不规范行为造成的。

分析论文关键词可以发现,关键词标注存在以下问

题:第一,作者标注关键词太过随意,用词不规范,常

出现分析、研究、影响、应用、评价、特点等无意义词;

第二,漏掉论文重要核心词,关键词中未包含关乎文

章核心内容的关键词。

2.3 普赖斯定律高频词阈值计算法

普赖斯(Price)是著名的科学家与科学史学家,

他在其代表名著《小科学,大科学》一书中曾有如下

的论述:在同一主题中,半数的论文为一群高生产能

力作者所撰,这一作者集合的数量上约等于全部作

9]

者总数的平方根

。该定律后是被用于文献计量

中,统计这些词出现的频次,并按频次递减的顺序,

依从小到大编上等级序号,即频次最高的词等级为

1,频次次之的等级为2,……,频次最小的词等级为

D。若用f表示频次,r表示等级序号,则有fr=C(C

为常数)。在此基础上B.Booth,发现了低频词分布

规律,齐普夫第二定律是与低频词分布相关的规律,

[6]

其公式为II/I,其中n为词频数,I

n(n+1)

为词频为n的词个数。关于该高频词阈值的确定,

最常见的计算方法是1973年Donohue基于齐普夫

T=(-1+第二定律提出的高低频词界分公式:

的关键词数,因此其结果取决于词频最低的关键词

个数。

由表1词频统计表可知,I19,因此计算可

为7

得,取整数T为37,即词频大于等于37的为高频

词,那么,该研究高频词仅能取到信息素养(217

次)、信息素养教育(216次)、高校图书馆(187次)、

MOOC(39次)4个高频词。4个高频词自然无法聚

类分析,更无法全面呈现该研究主题的主题分布和

发展趋势,由此证明,该取词方法在此具有不合理性

8/2,其中,T为高频词阈值,I

是词频为1

中,主要被用来获取核心作者。核心作者发表论文

数量的阈值用公式表示为:N=0.749

nx,其中

n为最高产作者所发的论文数。也有研究者用此

max

定律来确定高频词阈值,如王佑镁、陈慧斌《近十年

我国电子书包研究热点与发展趋势———基于共词矩

10]

阵的知识图谱分析》一文

,即用此公式界定高频

词。根据普赖斯公式,此处n即为关键词最高频

max

次,因此,确定高频词阈值主要取决于关键词的最高

频次。

根据本研究样本数据统计的词频表1,词频最

Copyright©博看网. All Rights Reserved.

34

晋 图 学 刊  2023(3) 

高的为关键词“信息素养”,共出现217次,公式中

n即为217,由此计算得出,N=11,即频次大于等

max

于11的关键词为高频词。因此,此方法可以析出高

频词16个。由此进行聚类,构建聚类图谱(见图

2)。分析可见,高校信息素养教育相关研究主题主

要包括两方面内容:一方面是信息素养教育方式的,

MOOC等;另一方主要研究对象为信息检索课教学、

面是信息素养教育内容的,包含数据素养、元素养

等。因为关键词过少,仅能呈现核心研究主题,无法

呈现内部细分研究主题。

20%的人口掌握了80%的社会财富。二八定律很

早就被用于文献计量和学术评价,因其符合文献计

量学中布拉德福定律、齐普夫定律、洛特卡定律三大

11]

定律

,也被很多研究者用于专题研究的方法和视

角,多用于期刊的遴选和研究。近年来,也有不少研

究者将其用于高频词的选择。刘奕杉通过实证发

现,关键词每年的累积频次都达到或超过当年关键

12]

词总频次的20%,符合集中分散的二八定律

,因

0%的关键词即可定义为此累计频次占总频次前2

高频关键词。

据此计算本研究中总年份的高频关键词阈值,

即统计累计词频数占所有词频总数前20%的关键

词。由本研究关键词词频表(表1)可知,909个关

键词累计频次共2124次,词频由高到低排序,其中

“信息素养”频次217次,“信息素养教育”216次,

“高校图书馆”187次,仅这三词累计频次达620次,

0%,因此,为了客观性,临时去远超总累计频次的2

掉“信息素养”“信息素养教育”和“高校图书馆”三

个高频词。剩余词频总数1504次,前20%词频为

308次,累计词频合计308次内的关键词为高频词,

即高频词阈值为8次,确定频次

8次的23个关键

词为高频词。由此构建关键词共现聚类图谱如下

(图3)。

Fig.2 KeywordclusteringgraphbyPrice’sLawmethod

图2 普莱斯定律法关键词聚类图谱

  针对本研究,通过此种方法筛选高频词,的确能

有效地选择出词频较高的词汇,但关键词较少,无法

很好地呈现关键词的聚类及共现关系,尽管具有一

定的合理性,但也要慎重使用。普赖斯定律在文献

计量中,主要用于确定某一研究领域的核心作者,将

确定核心作者的公式移植用于高频词的选择上,是

否科学合理,还有待于更多的实证研究。此种方法,

阈值取决于关键词的最大频次,对词频分布不均匀,

中频词和高频词频次频差较大的数据,会出现仅关

注频次较高的关键词,漏掉一些频次较高的中频词

的现象。而在实际的分析中,中频词对挖掘潜在研

究主题热点,或许更有价值和意义。因此,利用普赖

斯定律获取高频词阈值,要根据研究对象词频具体

分布情况确定合适的n值,而非简单地取决于最

max

高词频的数值,只有这样选词才能更为客观和科学。

2.4 二八定律获取高频词阈值法

二八定律也称帕累托法则、八二法则、关键少数

法则,最早是一条管理学原理,由帕累托于1906年

基于意大利社会财富分配的研究得出的结论,即

Fig.3 High-frequencykeyword

clusteringgraphby80/20rulemethod

图3 二八定律选定高频关键词聚类图谱

  图3分析可见,高校信息素养教育专题研究大

体有三个类团:一是宏观研究高校图书馆信息素养

教育的类团;二是有关大数据环境下,数据素养、元

素养相关研究的类团;三是基于信息素养教育方法

和模式进行探讨的类团,主要关注点有信息检索课

程教学模式、MOOC、嵌入式教学等。

Copyright©博看网. All Rights Reserved.

 

 王勋鸿:几种高频词阈值计算方法的实证研究

35

相较于自定义法和普赖斯定律法获取的研究结

果,此方法选取的关键词相对核心,更能反映研究领

域的核心主题和研究热点。二八定律是成熟的普适

定律,其普适性也在各种应用实证研究中得到验证。

在图书情报学界,因其符合文献计量的三大定律而

被广为应用,其主要应用范围多为期刊的选择和作

者及专题文献的分布研究。将其应用在高频词的选

择中,一定要注意:不能简单地取词频表中前20%

为高频关键词,而应该用累计词频占比的前20%为

高频关键词;另外,也要根据研究对象具体的词频分

布规律进行一定的人为干预,比如,若是词频分布不

均衡,就要考虑去掉一些影响结果的高频词。还应

该看到,近年来,与其相悖的“长尾理论”的应用实

践也被广泛重视,这为关键词分析和取词研究开拓

了思路,我们不仅要重视高频词,还应该重视中频词

和次频词,这对发掘研究对象的细分主题和新兴热

点具有重要意义。

2.5 词频g指数计算方法

g指数是2006年Egghe在物理学家Hirsch提

出h指数的基础上拓展延伸出的评价论文质量的指

标。其定义为:将论文按照被引次数降序排序,被引

次数按序号叠加,当累计被引次数等于序号的平方

时,该序号值即为g指数

[13]

庆大学赵星撰写的《基于主题词频和g指数的研究

[14]

热点分析方法》一文,该文基于g指数的原始概

念和计算方法,在文献引用次数统计基础上进行关

键词提取和分析。g指数理论后在文献计量中不断

15]

被研究者加以修正和实践。其中,杨爱青

根据g

指数的计算方法和原理,提出了词频g指数的概念,

用以进行词频分析。即:某一个研究主题关键词的

,当且仅当此研究主题的关键词总量数量分值为g

N中,有g个关键词其累计出现频次不少于g次,

而g+1个关键词其累计出现频次少于(g+1)次。

3]

研究者虞秋雨

在具体应用实践过程中发现,

因词频g值确定方法,需使用整数方式进行计算,而

在低于40频次的相邻两整数的平方之差相差范围

较小,且该差值范围随着数字越小而越小。若某一

阶段相同频次的关键词较多时,相关数值累加后容

易超出(g+1)范围,导致阈值溢出。由此,他提出

指数确定高频词阈值的方法。具了一种基于词频g

体计算方法如下:将关键词按频次排列,若从第g个

开始相同频次的关键词个数为n个,若g个关键词

累计出现的频次大于或等于g,而(g+n)个关键词

累计频次小于(g+n+1)个,则截止至第g+n个

在内的之前的关键词即词组集合中的高频词。表达

i=1

g+n

i=1

式如下:g+n+1),其中,

g且

<(

。g指数的计算过程

为:将源论文按被引次数降序排列,找出g值,使得

前g篇论文被引次数的总和大于或等于g,而前g

+1篇论文的被引次数小于(g+1)。

n为相同频次关键词个数。

依据此表达式,笔者基于本研究的样本词频统

指数的概念,确定g指数值(计算过计数据,根据g

程见表2)。

较早地将g指数利用到高频词选择的研究是重

表2 高频关键词及g值计算过程

Table2 High-frequencykeywordsandg-valuecalculationprocess

序号(g)

10

11

12

13

14

关键词

信息素养

信息素养教育

高校图书馆

MOOC

大学生

数据素养

高等教育

信息检索课

元素养

高校

数据素养教育

用户教育

美国

信息素质

词频(次)

217

216

187

39

34

26

21

18

17

16

15

12

12

12

累计频次(次)

217

433

620

659

693

719

740

758

775

791

806

818

830

842

g+1)(

16

25

36

49

64

81

100

121

144

169

196

16

25

36

49

64

81

100

121

144

169

196

225

Copyright©博看网. All Rights Reserved.

36

晋 图 学 刊 

续表2 高频关键词及g值计算过程

ContinuedTable2 High-frequencykeywordsandg-valuecalculationprocess

 2023(3) 

序号(g)

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

关键词

信息素质教育

图书馆

教学模式

学科服务

教育模式

大数据

研究生

嵌入式教学

通识教育

翻转课堂

服务创新

媒介素养

学科馆员

信息教育

高等教育信息素养框架

教育

数字素养

媒介素养教育

信息技术

信息服务

高等教育信息素养框架

词频(次)

11

11

10

10

225

累计频次(次)

853

864

874

884

893

902

910

918

926

933

940

947

954

961

968

975

982

989

995

1001

1007

g+1)(

256

256

289

324

361

400

441

484

529

576

625

676

729

784

841

900

961

1024

1089

1156

1225

289

324

361

400

441

484

529

576

625

676

729

784

841

900

961

1024

1089

1156

1225

1296

  根据词频g指数法选取高频词的公式

g+n

1i=

g且

Sg+1),参照表2的数据,可知发现从

<(

j=1

序号32频次为7的“媒介素养教育”起,相关数值符

合g指数公式,因此,词频g指数为32,由此获取词

7的32个关键词为高频关键词。

高频词阈值的取值不同,其分析结果也有明显

不同。分析这32个关键词构建的网络关系图(图

4),可以发现,高校信息素养教育研究,实施主体为

高校图书馆,研究内容除关于针对研究生和大学生

的信息素养教育外,主要在信息检索课教学模式及

MOOC建设、翻转课堂方面,另外元素养、媒介素养、

数字素养、数据素养相关主题也是研究者关注的焦

点,除此之外,《高等教育信息素养框架》、图书馆学

科馆员、服务创新等主题也是部分研究者基于信息

素养教育延伸的内容。

从词频g指数计算过程和关键词聚类效果来

看,该种方法取得了不错的效果。相较于缺乏理论

指导的自定义法、基于词频上下限的齐普夫高低词

频界分法和获得词汇较少的普赖斯定律法,词频g

指数在计算中,不是简单取词频最高值和最低值,关

注的是所有关键词的贡献度,全面考虑关键词的个

Fig.4 High-frequencykeywordsclustering

graphbywordfrequencyg-indexmethod

图4 词频g指数法高频关键词聚类图谱

数,相对来说更加客观和合理。但应该看到,目前实

证研究还不够,效果和普适性还需要更多的验证。

指数仅限于关键词个数,不考虑文献的引用词频g

情况,是否有悖于g指数初衷?毕竟g指数脱胎于

基于引用次数的h指数,其功能是考虑文献的质量,

而非单一的数量。另外,也要注意,同其他方法一

Copyright©博看网. All Rights Reserved.

 

 王勋鸿:几种高频词阈值计算方法的实证研究

37

样,词频g指数确定出的关键词数量取决于研究对

象析出的关键词数量多少和词频大小。因研究对象

不同,词频数量和词频分布并无统一的分布规律。

3 结论

自定义法、齐普夫高低频词界分法、普赖斯定律

指数法是目前文献计量中,法、二八定律法和词频g

尤其是主题热点分析中常见的五种高频词阈值计算

方法。阈值直接决定高频关键词的数量,不同的方

法阈值不同,选取的关键词数量也不同,这进一步影

响到关键词聚类和共现结果,取值越大,取词越多,

聚类效果越好,可供分析和挖掘的主题点就越多。

基于本研究样本数据源,不同方法获得的阈值

和关键词及聚类效果列表总结如下(表3)。

表3 各类方法的高频词阈值及聚类效果表

Table3 Comparisontableofhighfrequencywordthresholdandclusteringeffect

阈值计算方法

自定义法

齐普夫高低频词界分法

普赖斯定律法

二八定律法

词频g指数法

高频词阈值

37

11

高频关键词个数

42

16

23

32

高频词聚类效果

聚类效果好,但主观性强,易引人诟病。

关键词太少,无法聚类。

词量过少,聚类效果较差。

词量中等,聚类效果较好。

词量较多,聚类效果好。

  对比发现,本研究中,自定义法、词频g指数法、

二八定律法则三种关键词取词都取得了不错的聚类

效果。其他几种方法中,尽管自定义方法使用率最

高,但因其过于主观,不具有科学性,且该方法极其

考验研究人员的专业能力,取值是否科学合理,完全

取决于研究者对研究专题的熟悉程度。对希望通过

文献计量分析,发掘自己不甚了解的领域,以此探究

新的研究方法等此类研究目的,该方法不适用。二

八定律法聚类效果较好,一方面因为其进行的是全

部词汇累计词频的统计,不是取决于最高频次或最

低频次,故更为客观。另外,笔者取词时进行了几个

频次过高关键词的人工干预,去掉了词频特别高的

“信息素养”“信息素养教育”和“高校图书馆”三个

高频词后进行阈值计算。由此表明,利用该方法也

需加入人工干预。

基于本研究样本数据,其他几种方法中最不适

onohue基于用的是齐普夫高低频词界分法。尽管D

此提出的高低频词界定公式及算法,在上述所有方

法中,是唯一一种专门用于高频词阈值计算的方法,

但齐普夫第二定律最初是针对于单篇英文文献的词

频统计,主要应用于小说等长文本的词频分析,此类

文本词频容易形成一定的规律,而对围绕某个专题

多篇文献提取的关键词,关键词之间的关联性并不

强,所以用此方法界定阈值效果不好,尤其是在频次

该方法会造成阈值结为1次的关键词数量较大时,

果过大,选词过少等问题。而普赖斯定律法,最初用

于获取核心作者,用该定律确定高频词的阈值,其合

理性本就值得商榷,再者,因阈值取决于关键词的最

高频次,与其他词频无关,若是第一关键词词频过

高,且词频分布不均衡,也会造成阈值过高,造成取

词过少的现象。所以普赖斯定律法只能反映核心热

点的范围,却无法突出热点中各个研究主题,不能较

好地提取研究热点。由此可见,无论是齐普夫高低

频词界分法还是普赖斯定律法均因结果取决于一个

极值而造成偏差,前者基于最低频次的关键词个数,

后者基于关键词的最高频次的个数,均具有片面性,

所以,若使用这两种方法计算高频词阈值时,最好进

行人工干预,根据统计的词频表重新设定公式中的

最高值或最低值,再导入公式进行计算。而词频g

指数方法,其阈值计算过程,不仅考虑词频最高值和

最低值,还考虑到所有词的贡献,因此相较其他四种

方法,更为科学和合理,其缺点是计算过程较为复杂。

通过以上对比,由此得出如下结论:目前五种高

频词阈值的计算方法中,除去自定义方法,选词效果

最好的是词频g指数法,其聚类效果最好,在关键词

选取中也具有科学性、全面性和合理性,因它所关注

的是高频词对所有词的贡献值,比其他方法确定关

键词更为客观。但也要注意,目前相关研究均是基

于个案进行的实证分析,其普适性尚需更多的实证

研究。

笔者建议,在进行此类专题分析和研究时,在具

体的数据分析和实证研究中,利用上述各类定律公

式法确定阈值时,应该根据具体分析数据,结合自身

专业能力,自定义公式中的关键数值,以便获得更加

客观的分析数据,进而科学地呈现聚类效果。最后,

还需要特别指出,上述验证过程以及据此得出的结

Copyright©博看网. All Rights Reserved.

38

晋 图 学 刊  2023(3) 

论,仅是基于特定主题的实证个案研究,分析结果和

结论或许存在偏颇和片面,词频取值及分析方法还

有待于更多的理论探索和不同领域更深入的实证研

究。

参考文献:

[1] 张勤.词频分析法在学科发展动态研究中的应用综述

[J].图书情报知识,2011(2):95-98.

[2] 刘奕杉,王玉琳,李明鑫.词频分析法中高频词阈值界

J].数字图书馆论坛,2017定方法适用性的实证分析[

(9):42-49.

[3] 虞秋雨,徐跃权.共词分析中高频词阈值确定方法的

实证研究:以新冠肺炎文献高频词选取为例[J].情报

2020(9):90-95.科学,

[4] 周晓瑞,陈一衡,赵秋玲,等.我国动物疫病风险评估

iteSpace的可视化分析[J].中研究热点和趋势:基于C

国动物检疫,2020(12):91-97.

[5] 曹培慎.应用概率论[M].西安:陕西师范大学出版

2017.社,

[6] 邱均平.文献计量学[M].北京:科学技术文献出版

社,1988.

[7] 武汉大学语言自动处理研究组.现代汉语语言资料索

引第一辑:老舍《骆驼祥子》[M].成都:四川人民出版

1983.社,

[8] 郑晨,胡满峰.莫言作品中字频、词频的Zipf分布[J].

江南大学学报(自然科学版),2013(3):347-350.

[9] 宋剑耕,孙章.普莱斯《小科学,大科学》一书对我们的

启示[J].科学学与科学技术管理,1984(9):13-14.

[10] 王佑镁,陈慧斌.近十年我国电子书包研究热点与发

展趋势:基于共词矩阵的知识图谱分析[J].中国电

2014(5):4-10.化教育,

[11] 张仲梁.二八定律和文献计量学的三个定律[J].情

1988(4):22-25.报科学,

[12] 刘奕杉.词频分析方法在“热点”类文章中的应用研

D].长春:东北师范大学,2019.究[

[13] EGGHEL.Theoryandpractiseoftheg-index[J].Sci

entometrics,2006(1):131-152.

[14] 赵星,高小强,郭吉安,等.基于主题词频和g指数的

研究热点分析方法[J].图书情报工作,2009(2):59

-61.

[15] 杨爱青,马秀峰,张风燕,等.g指数在共词分析主题词

选取中的应用研究[J].情报杂志,2012(2):52-55.

AnEmpiricalStudyonSeveralThreshold

CalculationMethodsofHigh-FrequencyWords

WANGXunhong

(ShandongUniversityLibrary,Jinan250100,China)

Abstract:Inthefieldoflibraryandinformationscience,keywordandco-occurrenceanalysisisanimportanta

nalysismethod,andtheselectionofhigh-frequencywordsisthepremiseofco-wordanalysis,andtheresultof

,itisimthresholdselectionofhigh-frequencywordswilldirectlyaffecttheeffectofco-wordanalysis.Therefore

portanttochoosethecalculationmethodofhigh-frequencywordthreshold.Inthispaper,thekeywordsofinforma

tionliteracyeducationofChinainrecent20yearsaretakenassampledata,andvariousthresholdmethodsofhigh

-frequencywordssuchashigh-frequencywordboundarymethodbasedonZipf’slaw,formulamethodbasedon

Price’slaw,80-20Rulemethod,wordfrequencyG-indexmethod,andself-definedmethodareused.Among

thefivehigh-frequencywordthresholdcalculationmethods,theGindexmethodhasthebestclusteringeffect,

andothermethodsdonothavepopularityanduniversality.Intheactualliteraturemetrologyanalysis,weshould

choosetheappropriatemethodaccordingtoresearchpurpose.

Keywords:highfrequencywords;thresholdcalculation;clustering;informationliteracyeducation

(责任编辑:李 倩)

Copyright©博看网. All Rights Reserved.


发布者:admin,转转请注明出处:http://www.yc00.com/web/1710807722a1819315.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信