2024年4月17日发(作者:惠普app官方下载)
应用研究
数字技术
与应用
LDA主题模型在文本聚类中的应用
邹晓辉
(吉林师范大学计算机学院,吉林四平 136000)
摘要:文本聚类是文本信息处理问题中的一个研究热点,LDA主题模型是在语义层面对文本进行建模的一种算法。本文详述了LDA
主题模型原理及其在文本聚类中的应用,在英文数据集上进行了文本聚类实验。实验结果表明,LDA主题模型是一种有效的基于语义
的文本聚类算法。
关键词:无监督学习;文本聚类;LDA主题模型
中图分类号:TP393文献标识码:A文章编号:1007-9416(2017)12-0076-02
1 引言
聚类(clustering)
[1]
是一种无监督学习(unsupervised learning)
算法。在无监督学习任务中,数据样本的标记信息未知,聚类试图
将数据样本划分为若干个簇(cluster),使得簇内数据的相似性较
高,簇间数据的相似性较低,每个簇可能对应于一些潜在的概念或
类别。聚类算法通常用距离来度量数据间的相似性,常用的聚类算
法包括K-Means算法、密度聚类、基于高斯混合模型的聚类算法、
谱聚类等。
对大规模文本数据集进行聚类分析是自然语言处理领域的研
究热点。2003年Blei提出了潜在狄利克雷分配(Latent Dirichlet
Allocation,LDA)
[2]
主题模型(Topic Model),LDA基于统计学习方
法对文本主题进行建模,主要应用于文本数据的语义分析。本文就
LDA模型基于语义维度在文本聚类问题中的应用进行了探讨,并在
Reuters数据集上进行了主题聚类实验。
型中,具有M篇文档的文本集D=(d
1
,d
2
,…,d
M
)的全局主题词项分布
k
~Dirichlet(β);文本d主题分布采样θ
d
~Dirichlet(α),主题采样
z
dn
~multinomial(θ
d
),词项采样w
dn
~multinomial(
z
)。LDA模
dn
型是一个文本生成模型,描述了由文本主题分布θ
d
采样生成某一主
题z
d
,再由主题词项分布
z
采样生成词项w
d
。从本质上看,LDA模型
d
是对文本主题进行建模,对文本进行维度约简,将文本由V维词项空
间约简到K维主题空间,进而可以按主题对文本进行聚类。LDA模型
的超参数
和
可根据经验设定,参数
和
的学习可使用变分推
断
[2]
算法或Gibbs采样
[4]
算法。
2.2 LDA模型应用于文本聚类
由于文本词项空间的稀疏性,进行聚类前通常要对文本进行预
处理。典型的文本预处理过程包括分词、取词干、去停用词、特征选
择等。为提高文本聚类精度,本文采用TF-IDF算法对文本词项进行
加权,预处理后形成文本矩阵,然后将其作为LDA模型的输入进行
聚类。
2 LDA主题模型
LDA建模文本主题,得到文本属于各个主题的概率;基于高斯
混合模型(Gaussian Mixture Model,GMM)的聚类算法
[3]
,给出样
本属于某个高斯分布的概率。LDA与GMM应用于文本聚类都属于
软聚类算法。
3 实验
本文基于Python语言和Gensim库进行代码实现,在英文数据
集上使用LDA模型进行主题聚类实验。
3.1 英文数据集聚类实验
英文数据集取自路透社(Reuters)数据,该数据集包含395个英
文文本,4258个词汇。对文本取词干,去停用词,用TF-IDF进行特征
建模,然后把建模后的文本向量作为LDA模型的输入。设置主题数
目k=10, LDA模型的超参数α=0.1,β=0.01。聚类得到的主题词
项分布如表1所示。
2.1 LDA模型原理
LDA是一个三层贝叶斯模型,如图1所示,M、K、V分别表示文
本、主题、词项数目,其中w
d
是可观测变量,表示文本d的词项;z
d
是隐
变量,表示文本d的隐含主题;θ
d
和
k
是多项分布multinomial()参
数;α和β是Dirichlet()分布参数,是LDA模型的超参数。在LDA模
3.2 聚类结果分析
由表1可以看出,选取合适的k、α、β时,LDA模型对文本数据
集有较好的主题词聚类效果。根据实验得到的文本主题分布,可以
将文本按主题进行聚类。
d
z
dn
w
dn
d
1,...,M
n
1,...,N
d
,w
dn
1,...,V
4 结语
LDA主题模型基于统计学习方法可以将文本数据按主题进行
降维和聚类,参数设置合理时可以得到较好的聚类结果。基于LDA
模型的扩展模型GLDA
[5]
使用两种主题:局部主题和全局主题,高度
相关的局部主题被组织成组来描述局部语义,而全局主题被所有文
本共享来描述背景语义。相比LDA模型,GLDA模型可以更好地在文
本集上进行主题建模和按主题进行文本聚类。LDA模型的其他变
[6]
体,如L-LDA等,结合样本数据的标记信息可以应用于数据分类等
k
k
1,...,K
图1 LDA图模型
收稿日期:2017-12-15
作者简介:邹晓辉(1975—),女,吉林白城人,硕士,讲师,研究方向:分布计算、机器学习。
76
Copyright©博看网 . All Rights Reserved.
数字技术
与应用
应用研究
表1 Reuters数据集主题聚类的词项分布(比重最大的前5个特征词)
Topic 0
Police
Church
Catholic
Versace
York
Topic 1
Film
Music
Fans
Show
Concert
Topic 2
President
Political
Russian
Government
communist
Topic 3
Art
Exhibition
Museum
Churches
Cultural
Topic 4
Charles
prince
King
Diana
Royal
Topic 5
Germany
French
Right
War
Catholic
Topic 6
church
people
Year
World
Michael
Topic 7
Pope
Hospital
Doctors
Roman
surgery
Topic 8
Clinton
President
ambassador
Paris
Minister
Topic 9
Life
Funeral
Simpson
Death
Family
学习任务。LDA系列模型广泛应用于文本语义挖掘、图形图像处理、
生物信息学等领域,在模型结构和参数求解算法等方面还有很多优
化空间。
参考文献
[1]JAIN A,MURTY M,FLYNN Clustering:A Review. ACM Com-
puting Surveys,1999,31(3),264-323.
[2]Blei D, Ng A, Jordan M. Latent Dirichlet allocation. The
Journal of Machine Learning Research, 2003,3,993-1022.
[3]Reynolds D. Gaussian Mixture Models. Springer US, 2009,03
(4),93-105.
[4]Heinrich G. Parameter estimation for text analysis. Techni-
cal Report, 2008.
[5]Li X,Ouyang J,Lu Y, Zhou X. Group topic model organizing topics
into groups. Information Retrieval Journal, 2015,18(1),1-25.
[6]Ramage D, Hall D, Nallapati R, Manning CD. Labeled LDA: a
supervised topic model for credit attribution in multilabeled
corpora. In:Conference on empirical methods in natural lan-
guage processing, 2009,248-256.
Application of Latent Dirichlet Allocation in Text Clustering
ZOU Xiao-hui
(College of Computer Science, Jilin Normal University,Siping Jilin 136000)
Abstract:Text clustering is one of research focuses in text information processing. Latent Dirichlet Allocation (LDA) is a topic model which can
model text in semantic level. The theory and application in text clustering of LDA are elaborated. The experiments on English datasets about LDA are
carried out. The result demonstrates that LDA is an effective algorithm for text clustering based on semantic.
Key words:Unsupervised learning; text clustering; Latent Dirichlet Allocation; Topic modeling
······上接第75页
在传统的民政信息架构设计中,数据由社区街道直达市局,跨
越区级部门,民政局无法存留数据,业务数据不能互相调用,无法及
时、按需开展民生服务的工作与数据分析。民政办公系统软件主要
侧重于内部管理及办公流程,职能功效大于民生服务。在新的业务
系统中,民政局将彻底改变现在的繁琐流程,为群众提供便利化的
民政业务体验。要建设一个面向未来,直面群众服务的新平台离不
开可靠的技术支持。将基础数据与民政业务系统中的优抚、救助等
相关信息进行整合,形成统一的辖区居民信息基础数据库,实现信
息的重复利用。结合BI,深入挖掘数据背后的价值,及时了解辖区民
生服务动向。
4 结语
通过以上的初步介绍,对Dynamic CRM系统的案例模块有了
初步的认识,从目前的情况分析,合理的方法是对CRM的案例管理
功能进行模仿和消化吸收,从而借助后续新系统建设过程中改善我
们业务系统中案例管理模块,通过海事卫星BOSS系统的CRM案例
管理模块,借助JIRA,CONFULENCE外部系统共同创建海事卫星
特色的客服流程管理。
参考文献
[1]孔祥娇,张洁.海事卫星业务支撑系统内客服管理子系统介绍[J].
中国新通信,2016,(22):43-44.
Application of Microsoft Dynamic CRM System in Maritime Satellite Case
Management
ZHANG Jie, LIU Xiao-yue
(China Communications and Communication Information Center, Beijing 100011)
Abstract:With the development of maritime satellite business in various fields, the demand for service capabilities of service providers is also
improving. This requires a well-established system as an important tool for internal collaboration and services. The application of Microsoft Dynamic
CRM system in the case management of maritime satellite is analyzed and studied in this paper.
Key words:Dynamic CRM system; Maritime Satellite
77
Copyright©博看网 . All Rights Reserved.
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1713338919a2229248.html
评论列表(0条)