2024年4月13日发(作者:)
第
35
卷第
1
期
中文信息学报
2021
年
1
月
JOURNAL
OF
CHINESE
INFORMATION
PROCESSING
Vol.
35.
No.
1
Jan.,
2021
文章编号
:
1003-0077(2021)01-0072-09
一种基于门控空洞卷积的高效中文命名实体识别方法
王笑月
,
李茹•段菲
(
山西大学
计算机科学与技术学院•山西
太原
030006
)
摘
要
:
近年来•基于
RNN
的模型架构在命名实体识别任务中被广泛采用
,
但其循环特性导致
GPU
的并行计算
能力无法被充分利用
。
普通一维卷积虽可以并行处理输入文本•显著缩短模型训练时长•但处理长文本时往往需
要堆叠多个卷积层•进而增加梯度消失的风险
。
针对以上问题•该文采用可通过参数调节感受野范围的空洞卷积
,
并引入了带有残差连接的门控机制
,
以强化有效信息•降低无效信息的影响•同时改善梯度消失问题
;
针对字向量
表示能力有限的问题
,
该文还将字向量与其所属词的位置信息融合
,
以丰富文本特征
。
为验证所提出方法的有效
性•在
MSRA
数据集以及
Sina
Resume
数据集上进行了实验值分别达到了
92.97%
与
94.98%
。
与传统基于
Bi-LSTM-CRF
的命名实体识别模型相比
,模型训练速度提升
5
〜
6
倍
,
且表现优于一般的
RNN
架构
。
关键词
:
空洞卷积
;门控机制
;
中文命名实体识别
中图分类号
:
TP391
文献标识码
:
A
An
Efficient
Chinese
Named
Entity
Recognition
Method
Based
on
Gated-Dilated
Convolution
WANG
Xiaoyue.
LI
Ru,
DUAN
Fei
(
School
of
Computer
Science
and
Technology
・
Shanxi
University
.
Taiyuan
.
Shanxi
030006,
('hina)
Abstract
:
To
further
improve
gated
convolution
neural
network
for
Chinese
named
entity
recognition
(
NER)
and
re
solve
the
gradient
vanishing
occurred
in
the
stacking
multiple
convolution
layers*
adopt
recurrent
architecture,
in
particular
long
short-term
memory
networks
(
LSTM).
Because
of
the
recurrent
nature
of
those
methods
.
the
paral
lel
computing
capability
of
GPU
cannot
be
utilized
at
their
full
potential.
Although
vanilla
I
I)
convolution
operation
can
be
adopted
to
process
texts
in
parallel
,
stacking
multiple
layers
are
often
necessary
to
obtain
satisfactory
recep
tive
fields
so
as
to
better
model
long-range
dependencies
in
texts,
we
propose
to
replace
vanilla
convolution
operations
with
recently
proposed
dilated
convolution
operations
whose
receptive
fields
can
be
controlled
via
a
dilated
factor.
To
further
strengthen
effective
information
and
reduce
the
negative
impacts
induced
by
invalid
information,
we
propose
a
gating
mechanism
with
residual
connections.
To
enrich
textual
features,
we
also
fuse
the
character
em
beddi
ng
with
the
word
position
information.
Validated
on
MSRA
dataset
and
Sina
Resume
dataset
,
the
results
show
that
,
compared
with
conventional
Bi-LSTM-CRF
models
♦
our
proposed
method
shows
very
promising
performance
»
as
well
as
5x
〜
6x
speedup
in
lhe
training
phase
compared
to
RNN
architecture.
Keywords
:
dilated
convolution
;
gated
mechanism
;
Chinese
named
entity
recognition
器翻译、
信息抽取
、
问答系统等需要关键内容抽取技
o
引言
作为自然语言处理中的一项基础任务
,
命名实
术的领域具有广泛的应用价值
。
传统命名实体识别主要基于特征工程
,
即由线
性统计模型
(
如隐马尔可夫
(
HMM2
〕
、
支持向量机
体识别旨在从一段非结构化文本中抽取出与任务要
(
SVM
)
⑵或条件随机场
(
CRF
)
W
等
)
与人工定义的
特征相结合构造模型.但由于自然语言语法结构的
求相关的实体.例如人名
、
地名
、
机构名等
。
它在机
收稿日期
:
2019-09-09
定稿日期
:
2019-10-13
基金项目
:
国家自然科学基金
(
61772324
)
:
国家重点研发计划
(
2018YFB1005100
)
1
期
王笑月等
:
一种基于门控空洞卷积的高效中文命名实体识别方法
73
多样性
,
基于特征工程的方法需要针对不同的数据
、
结合领域知识人工总结特征和定义规则.其缺乏灵
十分低效
;
此外
,
大规模词典中带来的噪声影响难以
消除
。
本文使用
Chen
等
〔
⑵所提出的基于位置的字
向量
,
针对每一个字在所属词中的位置
,
对于每个字
给予了四种预训练的向量
,
从而在字级别的基础上
针对每一个字加入了所属词的位置特征
,
丰富了文
活性且无法保证泛化能力
。
高性能通用并行计算设
备(如
GPGPU
、
TPU)
的出现与进步使一系列神经
网络架构被成功应用于序列标注任务中.
Ling
等⑷
、
Ma
等":
.Lample
等"提出的基于
RNN
的神
本信息表示
,
同时也在一定程度上改善了一字多义
的问题
。
Chen
等:⑷以词为划分粒度结合基于位置
经网络模型虽然取得了优异的结果.但由于其采用
循环处理序列的方式
,
故未能充分利用
GPU
的并
的字向量得到文本表示.继而输入模型中
,
本文考虑
到以词为划分粒度易产生
(
)(
)
V(out-of-vocabulary)
问
行计算能力
。
不同于
RNN
循环处理输入序列的方式
,
卷积
题.故以字为划分粒度
。
本文的主要贡献可概括为以下两方面
:
运算可一次性地并行处理整个输入序列。
虽然在并
行处理方面卷积神经网络具有先天的优势.但通常
用于文本处理的一维卷积感受野受限于输入窗口大
(1)
首次在中文数据集上使用空洞卷积进行命
名实体识别
,
显著提升了模型训练速度
;
小在第/层
,卷积对于输入文本的感受野大小
为
r=/(w-l)
+
l,
当输入序列长度增加时
,
需要堆
(2)
为避免由于网络层数加深而产生的梯度消
失现象.并使信息可以在多通道内传输
,
引入了带有
残差连接的门控机制
。
叠的层数也随之增加。
为扩大感受野.同时减少堆
叠层数
,
可以采用池化操作.但池化会导致信息损
失
,
因而不适用于序列标注任务
。
为在同样的窗口
1
相关工作
传统模型大多基于手工定义的特征和线性链条
件随机场
(
He
等
I
Mao
等
)
。
基于
CNN
或者
大小下扩大卷积的感受野
,
Yu
等⑺提出了空洞卷
积.其在相同的滤波器上通过更改空洞率
D
的大
小
,
在不同范围的文本上操作.使其有效感受野随网
络深度以指数级增长
,
且不产生信息损失.也不会增
加模型参数:
Strubell
等⑷首次将空洞卷积用于命
RNN
等的神经网络模型效果超过传统的机器学习
方法而无需手工定义特征
。
由于
LSTM
具有长期
记忆的特点
,
LSTM-CRF
架构被广泛运用到命名实
名实体识别任务上
,
但只是简单地将
Bi-LSTM
替
换为空洞卷积.并未进一步对信息流动的方式进行
考虑和处理
;
Dauphin
等⑼在普通卷积的基础上引
体识别的任务中。
Huang
等⑴
」
使用
Bi-LSTM
抽取
词级别的文本信息
sLample
等⑹在其基础上结合了
字级别的文本特征
;Peng
等
L
⑷基于如何更丰富地
入了门控机制.进一步强化了数据中的有效信息
,
降
低了无效信息的影响
,
实验结果表明其在语言建模
任务上是有效的
;Wang
等将这种门控机制运用
到命名实体识别任务中
,
首次使用门控卷积结构进
表示文本信息问题
,
使用
Chen
等的字词嵌入融
合方法
,
提出了一个
“字
+
位置
”
嵌入和
NER
任务
联合训练的模型
;
Zhang
等构造了一个词格模
行实体识别
。
Wang
等:问所提出的模型易岀现梯度消失的
问题
,
本文针对该缺陷进行改进
,
采用可通过参数调
节感受野范围的空洞卷积
,
并引入了带有残差连
接⑴的门控机制(详见
2.2
节)
。
型.通过使用外部词典.匹配文本中所有可能的分词
结果
,
进而避免了分词错误
;
Cao
等何考虑到中文
分词任务和中文命名实体识别任务存在共同特性
,
即实体边界识别.使用对抗学习来联合训练命名实
体识别任务和中文分词任务.抽取共享的词边界信
除模型架构外.自然语言处理任务中的另一关
键点在于如何更好地表示输入文本
。
对于输入文本
息
;
Tan
等
〔
⑼通过自注意力机制捕捉输入文本的全
局信息
,
结果表明自注意力机制在命名实体识别任
务中的有效性
;
最近
,
随着
ELMo
C20
]
和
BERT
"
等
大型预训练语言模型的出现
,
在自然语言处理的下
游任务中
,许多工作使用了这类模型并获得了显著
常采用基于字的划分粒度或基于词划分粒度两种方
式
。
在基于字的模型中.每个字通常只有一种表示
,
无法兼顾一字多义的情况.例如
,
“
京
”
在
“
北京
”
和
“
京东
”
中有着不同的意义
;
而基于词的模型常因为
分词错误和误差传递导致实体识别错误
,
而且在真
的性能提升
,但由于其参数量巨大
,
仅微调需要的时
间也较长
,
本文出于降低资源消耗的考虑
,
未采用这
实应用中构建领域相关的大规模词典代价昂贵•在
匹配特征时时间和空间复杂度较高
,
从而导致模型
两种方式
。
74
中文信息学报
2021
年
模型整体架构如图
1
所示
,
其中
“
门控机制空洞
2
模型架构
本文将实体识别视为序列标注的任务
,
为文本
卷积
”
单元为带有门控机制的卷积层
,
细节将在
2.2
节中阐述
,
为张量拼接操作
;
将输入文本的字向量与
所对应的基于位置的字向量拼接
,
所得到的文本表
示输入到若干个堆叠的卷积层中
,
之后通过
CRF
解
中的每个字预测对应的标签,
并对文本采用
BI()
:
如
的标注方式
,
即字位于实体开头标注为
B.
位于实体
码得到实体识别结果
。
内部标注为
I,
非实体的字标注为()
。
基于位置的字向量
字向量
北
图
1
模型架构
2.1
空洞卷积
自然语言处理任务中所使用的卷积类型通常为
仅为
9
。
空洞卷积的计算方式如式
(
2)
所示
。
一维卷积
。卷积层相当于仿射变换
,
对每个字
,
卷积
操作如式
(
1)
所示
,其中
W
c
表示窗口大小为广的滤
c,
=
W,
k
=
O
(
2)
其中
d
为空洞率
,
㊉
为向量拼接操作
.
W
”
为窗口大
波器
,
“
代表经过卷积变换后的输出
,
㊉
代表向量
拼接操作
。
小为广的滤波器
,
C,
为输出
。
2.2
带有残差连接的门控机制
c,
=W
C
k
=
O
(1)
为强化数据中的有效信息.并增加流通渠道的
多样性
,
Dauphin
等⑼在卷积的基础上加入了门控
空洞卷积
(
Yu
等⑺)是卷积的一种变体
,
与普
通卷积不同
,
其跨越与空洞率
d
相同的文本片段对
机制
,
提升了语言模型实体识别的效果
。
本文在其
输入文本间隔采样
,
通过堆叠以指数级别增长的空
基础上进一步拓展.引入了残差机制.以改善深层网
络带来的梯度消失问题
,
同时使信息可在多通道内
洞率的空洞卷积(例如
,
本文所采用的空洞率为
1.
2.4,1,2.4),
可以实现以较少的层数覆盖到大多数
句子的长度
,
例如第
L
层的感受野可达
—
1
。
如果设置卷积核窗口大小为
3
.堆叠
4
层空洞卷积
,
则其有效感受野的宽度为
31,
而普通的卷积感受野
传输
。
本文采用的门控卷积架构如图
2
所示
。
每一个卷积门控单元内的操作可用式
(
3)
表示
:
y
=
X
®
(
1
—
cr(Conv2(X
))
+
<7
(
Conv2(X))
®
(Convl(X))
(3)
1
期
王笑月等:
一种基于门控空洞卷积的高效中文命名实体识别方法
75
input
X
output
Y
图
2
带冇•残差连接的门控卷积架构
其中
X
表示输入
.Convl
定义为卷积操作
1.
Conv2
定义为卷积操作
2
,
Convl
与
Conv2
都为空
洞卷积
,
二者所设定的滤波器个数
、
窗口大小一致.
但权值不共享
2
代表
sigmoid
激活函数
,
g
代表张
量的
Hardamard
积
,
+
代表张量相加
。
2.3
基于词中位置的字嵌入
采用字向量作为输入
,
可避免分词错误带来的
影响
,
同时不存在
OOV
的问题.但其所包含的文本
信息较少.而词向量又无法充分利用词中的字间关
系.因此本文提出一种融合字向量与词特征的方案.
具体介绍如下
。
考虑到每一个字在词中的位置有四种情况
:
①位于词的开始
;
②位于词的中间
;
③位于词的末
尾
;
④单个字表示词
。
故构建特征矩阵
WGRX,
其中
4
表示四种位置情况
,
s
为词特征矩阵的维度
。
给定输入序列
X
=
{jC
!
,JC
2
,JC
,
其中
X
,
代表输入序列中的字.在经过分词之后,
得到输入词
序列
C
=
(
C
)
,C2
.
…
,
C
”
}
•
其中
C,
表示序列中索引
为
?
的词
。
按照划分好的词信息
,
对每个字赋予位
置标签
,
0
表示所属词的开始
,
1
表示所属词的中间.
2
表示所属词的末尾
.3
表示单个字为词。
基于位置
的字向量表示如图
3
所示
。
根据所赋予的位置信息标签
,对文本序列中的
每一个字在特征矩阵
W
中查找对应的词特征向量
•
继而得到与输入文本相对应的词特征向量矩阵
e
2
e
Rx
。
将最终得到的字向量矩阵可
e
r
-
(
其中”表
示输入序列长度"表示字向量矩阵维度
)
与词特征
向量矩阵
e
R-
x
-
进行拼接
,
得到输入向量矩阵
e
e
R"g>
。
2.4
解码与训练
通过构造转移矩阵
,
条件随机场可考虑到相邻
标签之间标注的合理性.并输出一个概率值最大的
标注序列
。
本文在模型输出层采用了条件随机场
。
给定一个文本
X
=
{厂
,
心
,
•••□
”},通过
CNN
层后可得到对应的分数矩阵
H
6
R"
x,
.
其中
H,.,
表示输入序列中第
i
个单词对应第
j
个标记的分
数.标签之间的关系可以通过转移矩阵
TER"
1
来
刻画
,
其中
L
为标签数量。
令其可能的标注序列表
示为
Y=
{
j
»
i
-y-i
»•••
}
•
定义其得分如式
(
4
)
所示
。
M
H
s
(
x,y
)
=
Y
h
,.,
”
+
£丁
、
.,*
(
4
)
£
=
0
其标注序列概率计算方式为式
(
5
)
:
s
(
x.y>
P
(
Y|X
)
=
----------
e
S
(
X.Y'>
(
5
)
y'eu
其中
U
为所有可能的标注序列构成的集合
,
采
用负对数似然作为损失函数
,
如式
(
6
)
所示
。
LCX.Y'
)
=-logP
(
Y*
|
X
)
(
6
)
其中丫
,
为正确的标注序列
。
在训练阶段.通
过反向传播最小化该损失函数
;
在测试阶段.使用维
特比算法将条件概率最大的标注序列作为最终的
输出
。
3
实验
3.1
数据集
本文在已经公开划分好的
Sina
Resume
数据
集"
:
和
SIGHAN
Bakeoff
2006
的:的
MSRA
数据集
上进行实验
,
两个数据集的规模如表
1
所示
。
Resume
数据集包含八种实体.分别是国家
(
CONT
)
、
教育组织
(
EDU
)
、
地点
(
LOC
)
、
人名
(
PER
)
、
机构
(
(
)
RG
)
、
职业
(
PRO
)
、
种族
(
RACE
)
、
职业名
(
TITLE
)
o
76
中文信息学报
2021
年
表
1
实验所采用数据集介绍
数据集
种类
训练集
(
K)
测试集
(
K
)
验证集
(
K
)
句子
46.4
4.4
—
MSRA
字符
2
169.9
172.6
—
实体
74.8
6.2
—
句子
3.8
0.480.46
Sina
Resume
字符
124.1
15.1
13.9
实体
1.34
0.150.16
MSRA
数据集包含三种实体
,
分别是人名
(
PER
)
、
机构名
(
ORG
)
,
地名
(
1.
(
)
0
。
3.2
评价指标
实验采用
F,
值来评估命名实体识别效果.其
中八值由
P
(
准确率
)
和
R
(
召回率
)
来决定
。
计算
公式如式
(
7
)
〜式
(
9
)
所示
。
_
正确识别的实体个数
%
“
一识别的实体个数
x
】
°°%
(7)
正确识别的实体个数
—
语料中所有的实体个数
/0
(8)
八
=
2
;
[
;
R
x
]00%
(9)
3.3
实验设置
模型参数设置如表
2
所示
。
模型中字向量
(
char-embedding
)
维度设置为
100
,
词特征向量维度
(
seg-embedding
)
设置为
20
.
词特征矩阵采用了随机初始化的方式.字向量使用
Word2Vec
[21]
I
具训练
,
选用了
skip-gram
2|]
模型
,
上下文扫描窗口设置为
5,
负采样值设置为
8,
迭代
次数设置为
8
。
采用了
BI
(
)
标注方式进行文本标
注,
空洞卷积的窗口大小设置为
3,
滤波器个数设置
为
120,
采用优化函数为
Adam.
初始学习率大小为
0.001
,
学习率缩减步长
lr
_
decay
设置为
0.
05
.
dropout
率设置为
0.5
.
batch_size
设置为
32
,
epoch
设置为
100
。
表
2
模型参数设置
模型层
参数
参数值
model
skip-gram
Word2Vec
negative
sampling
8
window
size
5
iteration
8
续表
模型层
参数
参数值
kernel
size
3
空洞卷积
filter
number
120
dilated
rate
1,1,2,4,1,2,4
learning_rate
0.001
lr_decay
0.05
dropout
0.5
optimizer
Adam
batch_size
32
epoch
100
char-embedding
100
seg-embedding
20
3.4
实验结果与分析
本实验采用准确率
、
召回率和厂值作为评估
指标
。
3.4.1
MSRA
数据集命名实体识别结果与分析
表
3
展示了在
MSRA
数据集中的实验结果.将
本文提出的模型同先前的实验结果做了对比
。
其中
baseline
为不加门控机制与词特征的普通空洞卷
积
;Chen
等[旳
、
Zhang
等匈
、
Zhou
等何运用了丰
富的人工定义特征结合
CRF
进行命名实体识别
;
Dong
等说
〕
采用
Bi-LSTM-CRF
的架构进行中文命
名实体识别
,
并且基于汉字的组合结构构建了
radical-level
特征,将其与字向量融合
;
Zhou
等*"
表
3
MSRA
数据集命名实体识别实验结果
(
%
〉
模型
P
R
Fi
Chen
等
(2006)
25
91.22
81.71
86.20
Zhang
等
(
2006)
他
」
92.20
90.18
91.18
Zhou
等
(
2013)
,7]
91.86
8
&
75
90.28
Dong
等
(
2016)3
91.28
90.62
90.95
Wang
等
(2017)
103
92.34
90.15
91.23
Cao
等
(
2018)
[叩
91.30
89.58
90.64
Zhou
等
(2018)129]
92.04
91.31
91.67
Zhang
等
(
2018))7]
93.57
92.79
93.18
baseline
91.6490.15
90.89
dgcnn
93.51
92.44
92.97
1
期
王笑月等
:
一种基于门控空洞卷积的高效中文命名实体识别方法
77
使用了基于字符级别的
CNN-Bi-LSTM-CRF
的架
构,
通过
Bi-LSTM
来捕捉文本全局信息
.CNN
捕捉
文本局部信息
;
Wang
等
[
⑷使用完全基于卷积的架
构
•
并在卷积基础上引入了门控机制
;
Cao
等⑴使
用了联合学习的方法
,提取分词和命名实体识别中
的共同词边界信息
;
Zhang
等"提出了一种词格结
构
,
将词典信息加入到神经网络中
,
避免了分词错
误
。
虽然其模型性能最优.但运用了外部数据
,
且结
果依赖于词典的质量
。
本文所提出的模型在不引入
外部资源的情况下
,
效果达到了最优
。
3.4.2
Resume
数据集命名实体识别结果与分析
Resume
数据集实体识别结果如表
4
所示
,
(
1)
表示
Zhang
等":所采用的基于字的
LSTM
模型
,
(2)
为
Zhang
等叩所采用的基于词的
LSTM
模型
,
(3
)
为
Zhang
等⑷
所提出的词格模型
。
Zhang
等
M
使用了词格模型
,
并且加入了额外的词典信
息
,
可以看到本文提出的模型性能达到了
Fi
值
94.98%,
显示出本文所提出模型的优越性
。
表
4
Resume
数据集命名实体识别实验结果
(%
)
模型
P
R
Fi
Zhang
等
[⑺
(
1)
94.53
94.29
94.41
Zhang
等
[
17|
(2)
94.0794.42
94.24
Zhang
等屮
〕
(3)
94.81
94.11
94.46
baseline
93.7293.70
93.71
dgcnn
95.05
94.91
94.98
通过对比实验结果
,
发现在
MSRA
数据集上.
本文所提出的模型结果略低于
Zhang
等
”
〕
,而在
Resume
数据集上.本文所提出的模型结果高于
Zhang
等笔者分析导致该现象的原因之一为
,
对于
MSRA
数据集.数据涉及的领域范围较广.在
不同文本场景下
,
同一实体边界粒度不一致.模型无
法从数据集中获取足够的信息
,
准确地区分不同场
景下的实体边界.较依赖于外部资源
;
但对于
Resume
数据集.数据涉及的范围领域较单一
,
实体
边界划分较准
。
故在
MSRA
数据集上本文所提出
模型效果低于
Zhang
等
"
「
,
而在
Resume
数据集上
模型效果略高于
Zhang
等
〔
⑴
。
3.4.3
对比实验
为了验证所提出改进方案的有效性.分别在
MSRA
和
Resume
数据集上进行了
一系列的对比
实验
,结果分别如表
5
和表
6
所示
。
为增强结果的
直观性•将表
5
结果可视化于图
4
中
,
而将表
6
结果
可视化于图
5
中
。
其中
baseline
设置为普通空洞卷
积
.
baseline
十
gate
为空洞卷积加上门控机制
,
baseline+seg
为空洞卷积加上词特征
,
dgcnn
为本
文所提出的模型.
dgcnn-residual
为本文所提出的模
型去除残差结构部分
。
表
5
MSRA
数据集命名实体识别对比实验结果
(%)
模型
P
R
Fi
baseline
91.6490.15
90.89
baseli
ne+gate
92.54
90.40
91.46
baseline
+
seg
92.87
91.22
92.04
dgcnn
93.51
92.44
92.97
dgcnn-residual
93.4291.85
92.63
由表
5
和图
4
可看出
,
引入带有残差连接门控
机制和词特征的模型
(dgcnn),
与基于普通空洞卷
积的模型
(baseline)
相比.其准确率和召回率都有所
提升
,
表示出在无效信息的过滤以及文本表示上具
有更优的性能
。
在
MSRA
数据集上八值提升
2.
08%
;
相比于未引入残差连接门控机制的空洞卷
积模型
(dgcnn-residual)
,Fi
值提升
0.34
%
;
相比于
未引入词特征的空洞卷积与带有残差连接的门控机
制相结合模型
(
baseline
+
gate),
结合词特征后具有
更加丰富的文本信息
,
改善了实体边界划分不准的
现象
,
C
值提升
1.51%
,
召回率提升了
2.04%
;
相比
于未引入带有残差连接的门控机制模型
(baseline
+
seg),
八值提升
0.93%
。
以上结果显示出本文所提
出模型架构的有效性
。
表
6
Resume
数据集命名实体识别对比实验结果
(%)
模型
P
R
Fi
baseline
93.7293.70
93.71
baseline+
gate
94.41
94.27
94.34
78
中文信息学报
2021
年
续表
模型
P
R
Fi
baseline+
seg
94.3694.26
94.31
dgcnn
95.05
94.91
94.98
dgcn
nresidual
94.97
94.71
94.84
□
baseline
B
baseline+gate
Qbaseline+seg
■
dgcnn
IS
dgcnn-residual
95.5
9
5
94
5
n
r
94
m
r
y
I.J
93.
m
;
"
"
P
R
F
}
图
5
Resume
数据集命名实体识别对比实验结果
从表
6
和图
5
(
图
5
为表
6
的可视化结果
)
中可
看出
,
门控机制与词特征是模型性能提升的主要因
素
,
相比于基于普通空洞卷积的模型架构
(
baseline
)
,
引入词特征的模型
(
base
line+seg
)
与引入残差连接
的门控机制模型
(
baseline
+
gate
)
.
在
Resume
数据
集上.分别提升
F,
值
0.6%
与
0.63%
;
将词特征与
带有残差连接的门控机制相结合的模型
(
dgcnn
)
学
习到了更多的上下文特征
,
与
baseline
相比
F
」
值提
升
1.27%,
召回率
R
与精确率
P
均得到明显的提
升
。
其中在门控特征部分,
本文在
Dauphin®
」
所提
出的方案的基础上加入了残差连接
。
为了验证残差
连接对模型性能的影响.本文还加入了对比实验
(
dgcnn-residual
)
,
与之相比引入残差连接的模型
(
dgcnn
)
不仅改善了梯度消失的现象.同时也使得
信息可以在多通道内流动
,
凡值提升
0.14%
。
此
结果表明该改进可以进一步提升命名实体识别
效果
。
3.4.4
MSRA
数据集模型训练时间对比及分析
由于
Resume
数据集规模较小
,
各模型训练时
间未表现出明显差异.故本文选择在规模较大的
MSRA
数据集上进行训练时长对比.结果示于表
7
。
采用的对比模型基准为
Bi
LSTM-CRF
架构,
并将
普通卷积与空洞卷积速度进行对比.由表
7
可看出,
当本文所提出模型
“
带有门控机制空洞卷积
”
单元
层数设置为
4
层时.其在训练阶段速度为基于
Bi-
LSTM-CRF
模型的
5
倍,并且在拥有与普通卷积相
同感受野时
,
其性能优于普通卷积架构
;
当感受野范
围为
15
时
(
空洞卷积堆叠层数为
3.
普通卷积堆叠
层数为
7
)
.
模型训练速度约提升了
3
倍
,
并且值
也同时提升了
1.4%
;
当感受野范围为
31
时
(
空洞卷
积堆叠层数为
4,
普通卷积堆叠层数为
15
)
,
模型训
练速度提升了约
5
倍
,
&值也同时提升了
0.09%
。
以上结果表明了本文所提出模型在速度和性能上的
优越性
。
表
7
MSRA
数据集上时间对比
模型
模型层数
时间
/h
F.
值
Bi-LSTM
2
20
8
&
36
Bi-LSTM
460
90.18
CNN +
gate
7
12
89.64
CNNH-gate
15
21
91.23
dgcnn
3
4
91.04
dgcnn
4
4
91.32
dgcnn
7
5
92.97
3.4.5
错误案例分析
本文进一步对所提出模型在
MSRA
数据集上
各实体类别的识别效果进行分析•如表
8
所示
。
表
8
MSRA
数据集各个类别实体识别效果(
%
)
模型
(dgcnn)P
R
Fi
L
(
)
C
(
地名
)
94.64
91.55
93.07
(
)
RG
(
机构名
)
92.17
90.02
91.08
PER
(
人名
)
94.19
94.04
94.12
由表
8
可以看出
,
PER
(
人名
)
的识别效果准确
率与召回率较为一致
,
而
L
(
)
C
(
地名
)
和
(
)
RG
(
机构
名
)
的实体识别效果准确率高于召回率
。
出于研究模型在
MSRA
数据集中
,
实体识别结
果准确率高于召回率的原因.本文选取了测试集中
50
条错误数据进行了分析
,
从表
9
中列举出的错误
案例可以看出.产生误差的主要原因在于机构名同
地名容易混淆.由实体边界识别不清所致
。
例如
“
特
立尼达和多巴哥-中国友好协会
”
属于机构名.但模
型识别结果将
“
特立尼达
”
与
“
多巴哥
”
判断为地名
,
“
中国友好协会
”
判断为
“
机构名
”
,
因此导致准确率
较高.召回率偏低
。
1
期
王笑月等
:
一种基于门控空洞卷积的高效中文命名实体识別方法
79
表
9
典型错误案例
文本
dgcnn
预测实体
Zhang
等”
预测实体
比利时
(LOC)
通用银行总行
(ORG)
费尔迪南
・
沙德尔
(
PER)
香港特区
(LOC)
真实实体
比利时通用银行总行
(
ORG)
企业界人士有
:
比利时通用银
比利时通用银行
(
ORG)
行总行长费尔迪南
・
沙德尔
。
费尔迪南
・
沙德尔
(PER)
香港特区设立终审法院
费尔迪南
•
沙德尔
(PER)
香港特区
(LOC)
在香港特区设立终审法院是落
实
“
一国两制
”
、
••港人治港
”
、
高
度自治方案政策的重要体现
(ORG)
港
(LOC)
港
(LOC)
特立尼达
(LOC)
终审法院
(
ORG)
终审法院
(
ORG
)
港
(LOC)
港
(LOC)
港
(LOC)
港
(LOC)
特立尼达和多巴哥一中国友好
多巴哥
(LOC)
特立尼达和多巴哥一中国友
特立尼达和多巴哥中国友
好协会
(ORG)
克劳德
•
阿兴
(
PER)
协会会长克劳德
・
阿兴
中国友好协会
(ORG)
好协会
(ORG)
克劳德
•
阿兴
(
PER)
克劳德
・
阿兴
(
PER)
Zhang
等由于使用了大型外部词典.大大减
少了实体边界识别错误的可能性.故表中第三条文
本中实体
“
特立尼达和多巴哥一中国友好协会
”
可正
确识别为机构
;
对表中第二条文本数据识别出谓词
“
设立
”
.该谓词将实体
“
香港特区
”
与
“
终审法院
”
分
隔开
,
正确划分出两实体边界.从而降低了这种易混
淆的噪声数据影响
;
然而
dgcnn
于本例中无法正确
判断出谓词
“
设立”
,
导致实体边界划分错误
,
将
“
香
港特区设立终审法院
”错误地判断为一个实体
。故
推测通过外部词典匹配.进而大幅度提高实体边界
识别准确率
,
是
Zhang
等⑴
」
所提出模型效果在
MSRA
数据集上优于本文所提出模型效果的主要原因
。
4
结论
本文提出了一个基于空洞卷积的模型架构.并
在此基础上加入了残差门控机制.既保证了信息能
够在多通道流通.同时也缓解了梯度消失现象
。
基
于位置的词特征与字向量融合
,
改善了字向量表示
信息有限的问题
,
丰富了上下文的特征表示
。
实验
结果表明
,
本文所提出的模型在速度和性能上具有
明显优势
。
在未来的工作中.我们将继续研究如何在降低
模型计算量的同时保持模型的性能.并将该架构拓
展到自然语言处理的其他任务上
。
参考文献
[1]
Eddy
S
R.
Hidden
Markov
models[J],Current
Opinion
in
Structural
Biology»1996
»6(3)
:361-365.
[2]
Tong
S,
Koller
D.
Support
vector
machine
active
learning
with
applications to
text
classification
[J].
Journal
of
Machine
Learning
Research,
2002,
2(
1
)
:
999-1006.
[3]
Luo
G,
Huang
X,
Lin
C
Y.
et
al.
Joint
entity
disam-
biguation[C]//Proceedings
of
the
Conference
on
Em-
pirical
Methods
in
Natural
Language
Processing.
2014:
879-888.
[4]
Wang
Ling*
Tiago
Luis*
Luis
Marujo,
et
al.
Finding
functionin
form
:
Compositional
character
models
for
open
vocabulary
word
representation[C]//Proceedings
of
the
Conferenee
on
Empirical
Methods
in
Natural
Language
Processin
2015
:
324-331.
[5]
Xuezhe
Ma
・
Yingkai
Gao,
Zhiting
Hu,
et
al.
Dropout
with
expectation-linear
regularization
[
C
]/
/Proceed-
ings
of
the
In
ternational
Conf
erence
on
Learning
Rep
resentations*
2017
:
467-475.
[6]
Guillaume
Lample,
Miguel
Ballesteros
,
Sandeep
Sub
ramanian*
et
al.
Neural
architectures
for
named
entity
recognitionCC]//Proceedings
of
the
North
American
Chapter
of
the
Association
for
Computational
Linguis-
tics,
2016:387-396.
[7]
Fisher
Yu,
Vladlen
Koltun.
Multi-scale
context
aggre
gation
by
dilated
convolutions[C]//Proceedings
of
the
International
Conference
on
Learning
Representations
・
2016:674-685.
[8]
Emma
Strubell
.
Patrick
Verga
»
David
Belanger,
et
al.
Fast
and
accurate
entity
recognition
with
iterated
dilat
ed
convolutions
CC'0//Proceedings
of
the
Association
for
Computational
Linguistics
,
2017
:
465-478.
[9]
Dauphin
Y
N
Fan,
et
al.
Language
modeling
with
ga
ted
convolutional
networks
[
C[//Proceedings
of
the
Association
for
Computational
Linguistic,
2016.
[10]
Chunqi
Wang.
Wei
Chen,
et
al.
Named
entity
recog
nition
with
gated
convolutional
neural
networks[C]//
Proceedings
of
the
Conference
on
Computational
Lin
guistics»
2017
:
134-145.
[11]
Kaiming
He,
Xiangyu
Zhang
・
Shaoqin
Ren»
et
al.
Deep
residual
learning
for
image
recognition
[C]//
80
中文信息学报
2021
年
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
Proceedings
of
the
Association
for
Computational
Linguistics*
2015
:
376-389.
Xinxiong
Chen
・
Lei
Xu,
Zhiyuan
Liu,
et
al.
Joint
learning
of
character
and
word
embeddings[C]//Pro-
ceedings
of
the
International
Joint
Conference
on
Ar
tificial
Intelligence
»
2015
:
207-216.
Jingzhou
He,
Houfeng
Wang.
Chinese
named
entity
recognition
and
word
segmentation
based
on
character
[C']//Proceedings
of
the
6th
SIGH
AN
Workshop
on
Chinese
Language
Processing,
2008.
Xinnian Mao,
Y
uan
Dong
・
Sa
ike
He,
et
al.
Chinese
word
segmentation
and
named
en
tity
recognition
based
on
conditional
random
fields[C]//Proceedings
of
the
6th
SIGH
AN
Workshop
on
Chinese
Language
Processing
«2008.
Zhiheng
Huang,
Wei
Xu,
Kai
Y
u.
Bidirectional
LSTM-CRF
models
for
sequence
tagging
[J
J.
arXiv
preprint
arXiv
;
1508.01991,2015.
Nanyun
Peng,
Mark
Dredze.
Named
entity
recogni-
tion
for
Chinese
social
media
with
jointly
trained
em-
beddings[C]//Proceedings
of
the
Conference
on
Em
pirical
Methods
in
Natural
Language
Processin
2015:548-554.
Y
Zhang,
J
e
NER
using
lattice
LSTM
[C]//Proceedings
of
the
Association
for
Computa
tional
Linguistics*
2018
:
671-682.
Pengfei
Cao,
Yubo
Chen
・
Kang
Liu,
et
al.
Adversar
ial
transfer
learning
for
Chinese
named
entity
recogni
tion
with
self-attention
mechanism
[
C]//Proceedings
of
the
Conference
on
Empirical
Methods
in
Natural
Language
Processing
.
2018
:
1461-1473.
Zhixing
Tan
»
Mingxuan
Wang,
Jun
Xie,
et
al.
Deep
semantic
role
labeling
with
self-attention
[C]//Pro
ceedings
of
the
Association
for
the
Advance
of
Artifi
cial
Intelligence*
2018
:
543-554.
Matthew
Peters.
Mark
Neumann.
Mohit
Iyyer,
et
al.
Deep
contextualized
word
representations
[
C]//Pro-
ceedings
of
the
Association
for
Computational
Lin
guistics,
2018:
2227-2237.
[2
叮
Jacob
Devlin,
Mingwei
Chang,
Kenton
Lee,
et
al.
Bert
:
Pre-training
of
deep
bidirectional
transformers
for
language
understanding
[
C
[//Proceedings
of
North
American
Chapter
of
the
Association
for
Com
putational
Linguistics,
2019
:
1048-1056.
[22]
Jie
Yang,
Shuailong
I
Jang,
Yue
Zhang.
Design
chal
lenges
and
misconceptions
in
neural
sequence
labeling
[C]//Proceedings
of
CoNLL
,
2018:
3879-3889.
[23]
Gina-Anne
1
.evow.
The
third
in
ternational
Chinese
language
processing
bakeoff
:
Word
segmentation
and
named
entity
recognition[C]//Proceedings
of
the
5th
SIGHAN
Workshop
on
Chinese
Language
Proceed
ing,
2006
:
548-554.
[24j
Yoav
Goldberg
,
Omer
Levy.
Word2Vec
explained
:
Deriving
Mikolov
et
al.
's
negative
sampling
word-em
bedding
method]
〕
].
arXiv
preprint
arXiv
:
1402.3722
.
2014.
[25]
Aitao
Chen,
Fuchun
Peng
»
Roy
Shan,
et
al.
Chinese
named
entity
recognition
with
conditional
probabilistic
models[C]
//
Proceedings
of
the
5th
SIGHAN
Work
shop
on
Chinese
Language
Processing
*
2006
:
324-331.
[26]
Suxiang
Zhang
»
Juan
Wen,
Xiaojie
Wang.
Word
seg
mentation
and
named
entity
recognition
for
SIGHAN
bakeoff3
[
C
[//Proceedings
of
the
5th
SIGHAN
Workshop
on
Chinese
Language
Processing
»
2006
:
158-161.
[27]
Junsheng
Zhou,
Weiguang
Qu,
Fen
Zhang.
Chinese
named
entity
recognition
via
joint
identification
and
categorization
[J
^//Chinese
Journal
of
Electronics
»
2013,22(2)
:
225-230.
[28]
Chuanhai
Dong.
Jiajun
Zhang
・
Chengqing
Zong・
el
al.
Character
based
LSTM-CRF
with
radical-level
fea
tures
for
Chinese
named
entity
recognition[C]//Nat-
ural
Language
Understanding
and
Intelligent
Applica-
tions»2016
:
239-250.
[29]
Fan
Yang・
Jianhu
Zhang,
Gongshen
Liu,
et
al.
Five-
stroke
based
CNN-BiRNN
CRF
network
for
Chinese
named
entity
recognitionCC]//
Proceedings
of
the
In
ternational
Conference
on
Natural
Language
Process-
ing
and
Chinese
Computing,
2018:532-541.
李茹
(
1963
王笑月
(
1998
)・
硕士研究生
,
主要研究领域为
伍斗自然语言处理
。
)・
通信作者•博士
•教授
,
主要研究
领域为自然语言处理。
E
:
************.cn
:
wangxy0808@
段菲(
1979
-
)・
博士
,
讲师•主要研究领域为机器
学习
、
计算机视觉
、
多模态人机交互
。
:
duanf07@
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712938086a2151653.html
评论列表(0条)