2024年3月14日发(作者:)
第
31
卷第
5
期
2020
年
10
月
中原工学院学报
JOURNALOFZHONGYUANUNIVERSITYOFTECHNOLOGY
Vol.31
No.5
Oct.2020
()
1671-6906202005-0066-06
文章编号:
基于语言模型的中文命名实体识别研究
张欣欣,刘小明,刘
研
(中原工学院计算机学院,河南郑州
4
)
50007
摘
要:如人名、地名、机构名、专有名词等。命名实体识别是信
命名实体识别是指识别文本中具有特定意义的实体,
息提取、问答系统、句法分析、机器翻译等领域的重要基础任务。现有的模型通常需要在大量标记良好的语料库上进行
然而,实际生活中往往很难获得足够的标注数据来训练模型。为了让模型在有限的数据集上获取充分的上下学习训练,
提出一种基于确定性自动编码器的模型架构,利用语言模型来充分捕获文本序列中的潜在语义信息。实验结果文信息,
表明,该方法在微软亚洲研究院和中文医疗文本命名实体识别数据集上都表现出良好的性能,
犉
0.60%
1
值分别达到了
9
和
83.70%
。
关
键
词:自然语言处理;自动编码器;语言模型
命名实体识别;
中图分类号::/
642
文献标志码:
OI10.3969.issn.1671-6906.2020.05.010
G
A
D
j
NamedEntiteconition
,
命名实体识别(
y
R
g
[]
1
将文本中提到的命名实体定位并分类为预先
NER
)
如一般领域的人名、组织、位置、时间等,定义的类别,
生物医学领域的基因、蛋白质、药物和疾病名称等。作
]]
23
]
4
、问答系统
[
、机器翻译
[
等下游应用的为信息检索
[
中所蕴涵的语义信息,提出一种基于语言模型的命名
即将自动编码器融合到传统的
R
实体识别框架,
NN
利用语言模型来辅助模型更好地获取上
CRF
模型中,
从而达到更好的性能。为了验证模型的效下文信息,
果,在微软亚洲研究院(
M
命名实体识别数据集
SRA
)
上进行了实验验证,并将其应用到了中文医疗文本上,
实验结果证明,本文方法可以显著提升模型的性能,且
具有良好的泛化能力。
重要预处理步骤,命名实体识别在近十年得到了广泛
的研究。
传统的命名实体识别方法采用隐马尔可夫模型
[[
5
]
6
]
()和条件随机场()等机器学习模型,
HMMsCRFs
需要为特定类型的事件定义规则和模板,且其特征函
数的质量直接决定输出的好坏,不适合对广义的大量
文本信息进行事件提取。近年来,基于神经网络的深
度学习模型取得了相当不错的效果。与传统算法相
基于神经网络的深度学习模型只需在大量的标注比,
数据集上进行适当的训练和调试,就能在测试集上得
到理想的决策结果。然而,由于数据集的标注通常需
导致现有的已标注好的要专业的知识和统一的标准,
数据集十分有限,极大地影响了模型的性能。
为了让模型在有限的标注数据集上充分理解数据
1
研究现状
基于深度学习的模型可以有效地从原始数据中自
动学习有用的表示和潜在信息,并通过梯度下降的方式
在端到端范例中进行训练。
ZHOU
等采用一种基于多
阶段模型的中文命名实体识别系统,先使用字符级
CRF
模型对文本进行分词,再用
3
个词级
CRF
模型分别对
分词后的文本进行实体标注,在
MSRA
命名实体识别
[]
数据集上,
犉
6.51%
7
。
CHEN
等使用条件
1
值达到了
8
随机场和最大熵判别器来识别中文文本中的实体,在
[]
MSRA
数据集上
犉
6.2%
8
。
DONG
等在
1
值达到了
8
2020-07-20
收稿日期:
国家自然科学基金();河南省科技攻关项目()
61672361
,
61772020182102210513
,
182102310945
,
132102210186
基金项目:
张欣欣,刘小明,刘研
.
基于语言模型的中文命名实体识别研究[]中原工学院学报,():
J.2020
,
31566-71.
引文格式:
,,
ZHANGXinxinLIUXiaominLIUYan.AstudnChinesenamedentiteconitionbasedonlanuaemodel
[
J
]
.Journalof
gy
o
y
r
ggg
,,():()
ZhonuanUniversitfTechnolo02031566-710inChinese.
gyy
o
gy
2
第
5
期张欣欣,等:基于语言模型的中文命名实体识别研究
]
17
资源上训练语言模型来进行域适应
[
。
·
67
·
一个双向
LSTMCRF
神经网络中同时引入字符级和
部首级表示,通过对比不同
L
找到
STM
变体的结果,
了最适合用于中文命名实体识别的
L
在没有
STM
块,
9
]
手工设计特征的情况下获得了较好的性能
[
。
本文采用语言模型对原始数据进行建模,以充分
利用标记数据和未标记数据所蕴含的复杂上下文语义
信息,提高命名实体识别的整体效果。
虽然基于单个任务的方式可以使模型达到可接受
但是忽略了不同任务之间的相关性。为了解的效果,
决这个问题,
YANG
等提出了一种多任务联合模型,
通过对
POS
、
Chunk
和
NER
任务进行联合训练来学
10
]
习特定于语言的规则
[
。
ZHAO
等提出了一种具有
可以适应不同的数据集,域自适应能力的多任务模型,
11
]
获得了比单任务学习更好的学习效果
[
。
ZHOU
等
2
基于语言模型的命名实体识别模型
2.1
问题描述
命名实体识别的目标是识别并抽取出预定义的实
体提及,属于序列标注问题。一个标准的序列标注问
给定一个由
狀
个元素组成的序列
犡
=
题可以定义为:
(…,,标签序列
犢
=
(…,,则域
狓狓狓
狔狔狔
1
,
2
,
狀
)
1
,
2
,
狀
)
()()
犻
是(的集合,对于每个域,都有一个
犇
=
(
狓
犻
,
狓
,
狔
)
狔
)
犖
特定于域的标签集
犔
其中
犖
是标
犾
犱
=
{
犻
}
=1
与之对应,
犻
将中文命名实体识别构造成一个联合识别和分类任
同时执行边界识别和实体分类这两个子任务,实现务,
]
12
了更准确的预测
[
。
与多任务方法共享模型参数不同的是,
LEE
等在
再利用训练好的模型
NER
中先在源任务上训练模型,
]
13
,取得了更好的效果。
C
对目标任务进行微调
[
AO
等
提出了一个新的对抗迁移学习框架,从分词任务中学习
共享的单词边界信息,同时引入自注意力机制来显式捕
捉句子中任意两个字符之间的长距离依赖关系,取得了
]
14
较好的效果
[
。基于迁移学习的模型虽然可以将源域
签的个数。序列到序列学习的目的是直接对条件概率
建模,然后将输入序列(…,映射输
犘
(
狓
)
狓狓狓
狔
│
1
,
2
,
狀
)
出序列(…,,即:
狔狔狔
1
,
2
,
狀
)
…,
犢
=
(
rax
犘
(
狓
)
=
a
g
m
狔狔狔狔
│
1
,
2
,
狀
)
狔
()
1
2.2
模型概述
基于语言模型的命名实体识别模型总体结构如
图
1
所示。输入文本序列(…,,经过嵌入层和
狓狓狓
1
,
2
,
狀
)
[
8
]
被分别送入
T
的编码器层位置编码层后,
ransformer
1
但是需要一个在大量的标记数据的知识迁移到目标域,
中训练好的模型,而实际生活中,标注数据通常是有限
的。为了解决这个问题,
REI
在训练过程中加入无监督
语言模型,通过预测数据集中每个单词周围的单词来提
]
15
。
L
升序列标注模型的性能
[
IU
等提出了一个有效的
和自动编码器层。具体来说,模型左边的
Transformer
接着经过
BiLEncoder
层捕获输入序列的语义信息,
同时,模型右
STM
和
CRF
层输出每个序列的预测标签;
边的自动编码器层对输入序列的表示进行编码,获得输
入序列的上下文表示,然后对输入序列进行重构,确保
模型可以充分捕获文本序列中的潜在语义信息。
序列标记框架:利用神经语言模型来
LMLSTMCRF
,
]
16
提取字符级知识
[
。
JIA
等通过在未标记数据语料库
图
1
基于语言模型的命名实体识别模型结构
··
中原工学院学报
2020
年
第
31
卷
68
2.2.1
输入层
输入层首先采用
BERT
预训练的词向量
[
18
]
来初
始化词嵌入(
wordembeddin
g
)的权重,维度为
768
,词
表大小为所有文本。接着用不同频率的三角函数来计
算每个序列的位置编码,并将其添加到词嵌入中来帮
助模型获取单词的顺序,以更好地表达每个输入序列
的位置和不同单词间的距离信息。计算公式如下。
犘犈
()
=
s
(
狅狊
/
2
犻
/
犱犻犿
狆
狅狊
,
2
犻
in
狆
10000
)(
2
)
犘犈
(
狆
狅狊
,
2
犻
+
1
)
=
cos
(
狆
狅狊
/
10000
2
犻
/
犱犻犿
)(
3
)
式中:
狆
狅狊
表示输入序列的位置;
犱犻犿
表示模型的维
度,
犻
的范围为
0
~
(
犱犻犿
-1
)。
2.2.2
TransformerEncoder
层
TransformerEncoder
[
18
]
层是由
6
个相同的层组
成的,每一层都包含多头自注意力机制和全连接前馈
神经网络
2
个模块,每个模块间都加入了残差连接,
并使用层归一化来减少训练时间。当编码器接收到
输入向量时,自注意力机制会通过加权求和的方式来
计算序列中每个单词的贡献度(式(
4
)),以帮助模型
关注语义上相关的上下文单词,同时弱化不相关的单
词表示。多头注意力机制是由多个自注意力机制拼
接而成的(式(
5
)、式(
6
)),它可以产生多个不同的向
量权重表示,经过拼接和矩阵乘法运算后获得的词向
量会包含更多的上下文信息。接着经由自注意力机
制得到的词向量被送入前馈神经网络,并将结果传入
下一层。
犃狋狋犲狀狋犻狅狀
(
犙
,
犓
,
犞
)
=
softmax
(
犙犓
T
槡
犱犻犿
)
犞
(
4
)
犎犲犪犱
犻
=
犃狋狋犲狀狋犻狅狀
(
犙
犠
犻
犙
,
犓犠
犻
犓
,
犞犠
犞
犻
)(
5
)
犕狌犾狋犻犎犲犪犱
(
犙
,
犓
,
犞
)
=
犆狅狀犮犪狋
(
犎犲犪犱
1
,…,
犎犲犪犱
犺
)
(
6
)
式中:
犓
,
犞
,
犙
分别表示键、值矩阵和查询矩阵;
犠
犻
犙
,
犠
犻
犓
,
犠
犞
犻
为映射矩阵;
犱犻犿
为模型的维度;
犺
为多头注
意力机制头的个数。
2.2.3
DAE
层
确定性自动编码器(
DeterministicAutoencoder
,
DAE
)
[
19
]
是神经网络模型的一种,用于高维复杂数据
的处理。在处理文本序列时,通常用循环神经网络
(
RecurrentNeuralNetwork
,
RNN
)对输入的序列进
行编码,将输入数据的高级特征映射到低级表征(本征
向量,
latentvector
),解码器吸收数据的低级表征,然
后输出同样的高级表征。由于自动编码器是一种无监
督的学习方法,它的目标值等于输入值,因此既可以充
分利用无标注的数据,又能在最大程度上保持输入数
据的原有信息。
本文采用双向长短期记忆网络(
Bidirectional
Lon
g
ShorttermMemor
y
,
BiLSTM
)
[
7
]
对输入序列进
行计算,
BiLSTM
是
RNN
的一种,通过门控状态来控
制传输状态,记住需要长时间记忆的信息,忘记不重要
的信息,可以有效解决长序列依赖和梯度消失、梯度爆
炸等问题。
BiLSTM
由前向
LSTM
(
L
S
TM
→
)和反向
LSTM
(
L
←
S
TM
)构成,分别从左到右和从右到左读取
输入序列,得到并保存每个时刻向前和向后隐含层的
输出。
BiLSTM
的输出
犺
狋
是由正向输出和反向输出
拼接得到的,即
犺
狋
=
[
犺
→
狋
;
犺
←
狋
]。其中
犺
→
狋
=L
S
TM
→
(
狓
狋
,
狋
→
-1
),
犺
←
狋
=L
←
S
TM
(
狓
狋
,
犺
←
狋
+
1
)。输入文本序列
犡
经过
DAE
的编码器后,得到潜在表示向量
珗
犣
,即
珗
犣
=
犳
(
犡
)
=
(
犺
1
,…,
犺
狀
),
犳
(·)在这里表示
BiLSTM
。将学到的潜
在表示向量
珝
犣
送入
DAE
的解码器,作为其初始状态
来重新学习
犡
在隐空间上的表示
犣
→
′
,最后将
犣
→
′
通过前
馈层,得到向量
犱
=
(
犱
1
,
犱
2
,…,
犱
狋
,…,
犱
狀
),其中
犱
狋
=
tanh
(
犠
犱
犺
狋
)(
7
)
式中:
tanh
为非线性激活函数;
犠
犱
为权重矩阵。
.2.4
输出层
采用标准条件随机场(
ConditionalRandom
Field
,
CRF
)作为
NER
的输出层。
CRF
是一种判别
式概率模型,在预测当前标签时,模型会通过特征函数
来学习输出序列的前后间关联,进而提高其预测能
力
[
6
]
。当
CRF
接收到
DAE
层输出的向量
犱
,每个标
签的输出概率
犘
(
狔
狋
│
犱
狋
)可以表示为:
犘
(
狔
犱
狋
·
犲
狅
,
犮
狋
│
犱
狋
)
犠
=
∑
犱
·
犠
(
8
)
狅
,
犮′
犮′
∈
犆
狋
犲
式中:
犠
狅
,
犮
为输出权值矩阵
犠
狅
的第
犮
行;
犆
为所有可
能输出标签的集合。
.2.4
目标函数
在对命名实体识别任务的训练中,采用负对数似
然损失(式(
9
));在对语言模型的训练中,使用重构损
失(式(
10
))。式中
|
犇
|
表示域的大小。
犔
狀犲狉
=-
1
狘
犇
狘
∑
犖
狋
=
1
lo
g
(
犘
(
狔
狋
│
犱
狋
))(
9
)
犑
狉犲犮
=-
1
犖
狘
犇
狘
∑
狋
=
1
lo
g
(
犘
(
狓
狋
│
犱
狋
))(
10
)
为了在数据集上对实体识别和语言建模进行联合
训练,模型的整体损失函数可表示为:
犔
=
犔
狀犲狉
+
λ
·
犑
狉犲犮
(
11
)
式中:
λ
是超参数,表示语言模型的权重,经过多轮实
验验证,本文取
λ
=1.2
。
犺
2
2
第
5
期张欣欣,等:基于语言模型的中文命名实体识别研究
··
3
实验
3.1
实验数据及预处理
在
MSRA
数据集上对命名实体识别进行实验验
证,并将模型应用到中文医疗文本(
CCKS2020
中文医
疗文本命名实体识别数据集)上,数据集统计见表
1
。
其中
MSRA
数据集包含
3
种命名实体:人名(
PER
)、
地名(
LOC
)和组织(
ORG
);中文医疗文本包含
6
种实
体:疾病和诊断、影像检查、实验室检验、手术、药物和
解剖部位。
表
1
数据集统计信息
数据集类型训练集测试集
句子
46.4k4.4k
MSRA
字符
2169k172.6k
句子
中文医疗文本
1.5k-
字符
438.4k-
实验采用标准的
IOBES
(
B
表示开始;
I
表示中
间;
E
表示结尾;
S
表示单个字符;
O
表示其他,用于标
记无关字符)标签方案对数据集进行字符级别的标记,
并用“,”对字符数大于
200
的句子进行切分,将最大句
长控制在
200
字符以内,以减少长距离遗忘。
3.2
评价指标
实验采用
EM
(
ExactMatch
)作为评测指标,即只
有当实体的边界和类型都被正确识别时,才被认为是
正确识别,可以采用精确率
犘
、召回率
犚
以及
犉
1
值来
计算得分。
犚
=
犜犘
犜犘
+
犉犖
(
12
)
犘
=
犜犘
犜犘
+
犉犘
(
13
)
犉
1
=
2
×
犘犚
犘
+
犚
(
14
)
式中:
犜犘
为准确识别的实体数量;
犉犘
为已识别的非
实体数量;
犉犖
为未识别的实体数量。
3.3
实验设置
实验采用
Adam
算法作为模型的优化方法(
β
1
=
0.9
;
β
2
=0.999
;
犲
=1E-8
),初始学习率为
1E-3
,
batch
训练大小为
64
。模型的
TransformerEncoder
维度均为
768
,
BiLSTM
的循环单元均为
256
维,深度
均为
1
。为了避免梯度爆炸,梯度剪裁的值设为
5.0
。
实验对模型执行
100
轮训练。
69
本文以经典的
BiLSTM+CRF
模型作为基线,在
其基础上构建
3
种模型作为对比,用于验证
DAE
和
TransformerEncoder
对模型性能的促进作用。(
1
)在
基础框架上加入了
DAE
,简称
DAEBase
;(
2
)在基础
框架上加入了
TransformerEncoder
,简称
TransEnc
Base
;(
3
)在基础框架上同时融入了
DAE
和
Trans
formerEncoder
,简称
DAETransEncBase
,并在第
3
种
模型的基础上,将随机初始化的词嵌入改为
BERT
预
训练的词向量。
3.4
实验结果分析
为了验证本文所构建的模型性能,将其与现有的模
型
[
7
,
8
,
12
,
14
]
进行了实验对比,结果如表
2
所示。文献[
7
]
在基于词的序列标注任务上,通过添加手工标注来辅
助学习句子的特征;文献[
8
]以字符为基础,利用条件
随机场和最大熵模型来共同识别中文文本中的实体;
文献[
12
]将中文
NER
构造为一个联合任务,同时执
行边界识别和实体分类两个子任务;文献[
14
]采用对
抗迁移学习的方法,将任务共享的词边界信息整合到
中文
NER
任务中以缓解数据量不足的问题,并使用
自注意力机制来捕获句子的全局依赖关系。虽然这几
种模型都在一定程度上提高了实体识别的
犉
1
值,但是
对文本序列中所蕴含的语义信息学习得还不够充分,导
致模型有一定的局限性。本文构建的
DAETransEnc
Base
模型融合了
TransformerEncoder
和
DAE
的优
点,可以帮助模型更充分地捕获上下文信息,提高实
体识别的性能。加入预训练的
BERT
词向量后,不
同语境中的语义信息得到更充分地表示,模型的泛化
能力也进一步得到提升。与现有方法相比,虽然本文
模型还没有达到最优,但足以证明本文所提方法的有
效性。
表
2
各模型在
MSRA
数据集上的
犉
1
值单位:
%
模型
犘犚犉
1
文献[
7
]
88.9484.2086.51
文献[
8
]
91.2281.7186.20
文献[
12
]
91.8688.7590.28
文献[
14
]
91.7389.5890.64
BiLSTM+CRF89.3083.9086.50
DAEBase88.7085.5087.10
TransEncBase89.7089.3089.50
DAETransEncBase90.2089.9090.00
DAETransEncBase+BERT92.2089.1090.60
··
中原工学院学报
2020
年
第
31
卷
70
为了验证本文模型(
DAETransEncBase+BERT
)
的鲁棒性,将其应用在中文医疗文本命名实体识别任
务上,实验结果如表
3
所示,模型的
犉
1
值达到了
83.7%
,与基线结果(
79.7%
)相比提升了
4%
,说明所
构建模型具有良好的泛化能力。进一步对医疗文本的
每一类实体进行分析,发现当实体数量较少时,模型不
能很好地识别出实体的边界情况,导致严格指标的
犉
1
值比较低;但是当实体数量比较多,即训练实体比较充
裕时,模型的识别效果较好。图
2
为本文模型与基线
模型在医疗命名实体识别任务上的
犉
1
值,其中灰色
表示本文模型,白色表示基线模型。从图
2
可以看出,
本文模型在每一类实体上的表现都优于基线,说明本
文所构建的模型能捕获更充分的上下文语义信息,提
高实体识别的准确度。
表
3
本文模型在中文医疗文本数据集上的
犉
1
值
单位:
%
实体类型
犘犚犉
1
疾病和诊断
84.276.680.2
检查
88.086.387.1
检验
85.688.286.9
手术
82.189.685.7
药物
91.988.590.2
解剖部位
82.783.583.1
平均
84.483.083.7
图
2
本文模型与基线模型在医疗文本
数据集上不同实体的
犉
1
值
4
结语
本文提出了一种基于语言模型的中文命名实体识
别方法,用语言模型来辅助学习输入序列中包含的语
义信息,帮助模型充分地利用未标注的数据。由实验
对比结果可知,与基线模型相比,融入自动编码器之
后,模型在有限的标注数据集上可以更充分地理解输
入序列复杂的上下文信息,有效地提高了模型的性能。
但模型对数据所包含的结构化信息理解还不够充分,
未来的工作重心将放到如何让模型理解数据所包含的
语义信息和结构信息,同时考虑将合适的外部知识迁
移到模型里。
参考文献:
[
1
]
王癑
.
基于深度学习的命名实体识别研究[
D
]
.
昆明:云南
财经大学,
2019.
[
2
]
YUW
,
YIM
,
HUANGX
,
etal.Makeitdirectl
y
:
Event
extractionbasedontreeLSTMandBiGRU
[
J
]
.IEEE
Access
,
2020
,
8
:
14344-14354.
[
3
]
张芳容,杨青
.
知识库问答系统中实体关系抽取方法研究
[
J
]
.
计算机工程与应用,
2020
,
56
(
11
):
219-224.
[
4
]
乔博文,李军辉
.
融合语义角色的神经机器翻译[
J
]
.
计算
机科学,
2020
,
47
(
2
):
163-168.
[
5
]
MATTILAR.Hiddenmarkovmodels
:
Identification
,
in
versefilterin
g
anda
pp
lications
[
D
]
.Stockholm
:
KTH
Ro
y
alInstituteofTechnolo
gy
,
2020.
[
6
]
郑秋生,刘守喜
.
基于
CRF
的互联网文本命名实体识别
研究[
J
]
.
中原工学院学报,
2016
,
27
(
1
):
70-73
,
95.
[
7
]
ZHOUJ
,
HEL
,
DAIX
,
etal.Chinesenamedentit
y
reco
g
nitionwithamulti
p
hasemodel
[
C
]//
Proceedin
g
sof
theFifthSIGHANWorksho
p
onChineseLan
g
ua
g
ePro
cessin
g
.Stroudsbur
g
,
PA
:
ACL
,
Press
,
2006
:
213-216.
[
8
]
CHENA
,
PENGF
,
SHANR
,
etal.Chinesenamedentit
y
reco
g
nitionwithconditional
p
robabilisticmodels
[
C
]//
Proceedin
g
softheFifthSIGHANWorksho
p
onChinese
Lan
g
ua
g
eProcessin
g
.Stroudsbur
g
,
PA
:
ACL
,
Press
,
2006
:
173-176.
[
9
]
DONGC
,
ZHANGJ
,
ZONGC
,
etal.Characterbased
LSTMCRFwithradicallevelfeaturesforChinesenamed
entit
y
reco
g
nition
[
C
]//
NaturalLan
g
ua
g
eUnderstandin
g
andIntelli
g
entA
pp
lications.Cham
,
Switzerland
:
S
p
rin
g
er
,
2016
:
239-250.
[
10
]
YANGZ
,
SALAKHUTDINOVR
,
COHENW.Multi
taskcrosslin
g
ualse
q
uenceta
gg
in
g
fromscratch
[
Z
]
.
arXiv
p
re
p
rintarXiv
:
1603.06270
,
2016.
[
11
]
ZHAOH
,
YANGY
,
ZHANGQ
,
etal.Im
p
roveneu
ralentit
y
reco
g
nitionviamultitaskdataselectionand
constraineddecodin
g
[
C
]//
Proceedin
g
softhe2018Con
ferenceoftheNorthAmericanCha
p
teroftheAssocia
tionforCom
p
utationalLin
g
uistics
:
HumanLan
g
ua
g
eTech
nolo
g
ies.Stroudsbur
g
,
PA
:
ACLPress
,
2018
:
346-351.
第
5
期张欣欣,等:基于语言模型的中文命名实体识别研究
·
71
·
[],
12HOUJQUW
,
ZHANGF.Chinesenamedentitreco
Z
yg
nitionvia
j
ointidentificationandcateorization
[
J
]
.
g
,():
ChineseJournalofElectronics2013
,
222225-230.
[]
13LEEJY
,
DERNONCOURTF
,
SZOLOVITSP.Trans
ferlearninornamedentiteconitionwithneural
g
f
y
r
g
[//
C
]
ProceedinsoftheEleventhInternationalnetworks
g
ConferenceonLanuaeResourcesandEvaluation.
gg
,
ELARPress2018.LuxembourR
:
g
F
[],
C14AOPHENY
,
LIUK
,
etal.Adversarialtransfer
C
learninorChinesenamedentiteconitionwith
g
f
y
r
g
//
selfattentionmechanism
[
C
]
Proceedinsofthe2018
g
ConferenceonEmiricalMethodsinNaturalLanuae
pgg
,
P
,:
Processin.StroudsburA
:
ACLPress2018182-
gg
192.
[]
15EIM.Semisuervisedmultitasklearninorseuence
R
pg
f
q
[//
labelinC
]
Proceedinsofthe55thAnnualMeetinf
ggg
o
theAssociationforComutationalLinuistics.Strouds
pg
,,
burPA
:
ACLPress2017
:
2121-2130.
g
[],
16IUL
,
SHANGJRENX
,
etal.Emowerseuencelabelin
L
pqg
[//
withtaskawareneurallanuaemodelC
]
ThirtSec
ggy
ondAAAIConferenceonArtificialIntellience.Menlo
g
,,
ParkCA
:
AAAIPress2018
:
5253-5260.
[]
17IAC
,
LIANGX
,
ZHANGY.CrossdomainNERusin
J
g
[//
crossdomainlanuaemodelinC
]
Proceedinsofthe
gggg
57thAnnualMeetinftheAssociationforComuta
g
o
p
,
P
,
tionalLinuistics.StroudsburA
:
ACL
,
Press
gg
2019
:
2464-2474.
[],:
18EVLINJCHANGMW
,
LEEK
,
etal.BertPre
D
traininfdeeidirectionaltransformersforlanuae
g
o
p
b
gg
[//
C
]
Proceedinsofthe2019Conferenceunderstandin
gg
oftheNorthAmericanChateroftheAssociationfor
p
,
PComutationalLinuistics.StroudsburA
:
ACL
,
pgg
,
Press2019
:
4171-4186.
[]
19LHARTDE
,
HINTONGE
,
WILLIAMSRJ.
RUME
[]
LearnineresentationsbackroaatinrrorsJ.
g
r
py
b
ppgg
e
,():
Nature1986
,
3236088533-536.
作者简介:张欣欣(,女,硕士研究生,主要研究方向为
1995-
)
自然语言处理。
E
:
mail2018007088
@
zut.edu.cn
通信作者:刘小明(,男,讲师,博士,主要研究方向为自
1979-
)
然语言理解、中文信息处理和机器学习。
E
:
mailmin616
@
g
zut.edu.cn
(责任编辑:苏安婕)
犃狊狋狌犱狀犆犺犻狀犲狊犲狀犪犿犲犱犲狀狋犻狋犲犮狅狀犻狋犻狅狀犫犪狊犲犱狅狀犾犪狀狌犪犲犿狅犱犲犾
狔
狅
狔
狉
犵犵犵
,,
ZHANGXinxinLIUXiaominLIUYan
g
(,,)
SchoolofComuterScienceZhonuanUniversitfTechnoloZhenzhou450007
,
China
pgyy
o
gyg
:
犃犫狊狋狉犪犮狋amedentiteconition
(
NER
)
referstoidentifinheentitiesinthetextthathavea
p
arti
N
y
r
gyg
t
,,,,,
lacesroernounssuchasthenamesof
p
eoleinstitutionsetc.Itisanimortantbasiccularmeanin
pppppg
,,
sntacticanalsismachinetranslationtaskinthefieldsofinformationextractionuestionandanswersstem
,
qyyy
andsoon.Mostoftheexistinodelsusualleedtobelearnedandtrainedonalarenumberofwellmarked
g
m
y
n
g
,,
corora.Howeverinmanasesitishardtoobtainsufficientannotationstotrainthesemodels.Inorderto
py
c
,
obtainsufficientcontextinformationonthelimiteddatasetamodelarchitecturebasedondeterministicautoen
,
wcoderis
p
roosedhichuseslanuaemodeltofullaturethe
p
otentialsemanticinformationintext
pggy
c
p
seuence.Theexerimentalresultsshowthatthe
p
roosedmethodachieves
g
reat
p
erformanceonMicrosoft
qpp
(,
MSRA
)
andChinesemedicaltextnamedentiteconitiondatasetachievineasureofResearchAsia
y
r
gg
犉
1
m
90.60%and83.70%resectivel.
py
:(;;;
犓犲狅狉犱狊amedentiteconitionNER
)
naturallanuae
p
rocessinautoencoderlanuaemodel
n
y
r
gggggg
狔
狑
发布者:admin,转转请注明出处:http://www.yc00.com/web/1710431451a1755726.html
评论列表(0条)