Incorporating External POS Tagger for Punctuation Restoration
标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。
模型
模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是POS TaggerPOS ~TaggerPOS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过Fusion Layer LFusion~Layer~LFusion Layer L和Softmax Layer SSoftmax ~Layer~SSoftmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。
Fusing POS tags into LM representations
(1) LM representations
一个长度为nnn的文本XXX经过预训练模型表征得到隐藏状态HHH,这里预训练模型模型用FFF表示
H=Fθ(X)∈Rn×dH = F_{\theta}(X)\in\boldsymbol{R}^{n \times d}H=Fθ(X)∈Rn×d
(2) Fusing POS tags
加载词性标注预训练模型FWF_{W}FW得到XXX中的每一个token的词性标注结果T^\hat{T}T^
T^=FW(X)∈Rn\hat{T} = F_{W}(X)\in \boldsymbol{R}^{n}T^=FW(X)∈Rn
其中W∈Rb×eW\in\boldsymbol{R}^{b\times e}W∈Rb×e 是Softmax LayerWSoftmax ~Layer WSoftmax LayerW,bbb是embedding size, eee是词性的tag数量。Softmax Layer WSoftmax~Layer~WSoftmax Layer W得到POSTaggerPOS TaggerPOSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T^\hat{T}T^中的元素来查找 WWW 中的对应列,并形成 POS 嵌入 E∈Rn×bE\in\boldsymbol{R}^{n\times b}E∈Rn×b
(3) Self-attention Fusion Layer L
将HHH和EEE进行拼接得到C∈Rn×(b+d)C\in\boldsymbol{R}^{n\times(b+d)}C∈Rn×(b+d),采用self-attention 多头encode layer LγL_{\gamma}Lγ高效的表征CCC,最后加一层Softmax Layer S SηSoftmax~Layer~S~S_{\eta}Softmax Layer S Sη得到标点符号
tags Y^\hat{Y}Y^
Y^=Sη(Lγ(C))\hat{Y} = S_{\eta}(L_{\gamma}(C))Y^=Sη(Lγ(C))
其中γ\gammaγ和η\etaη表示相关的参数。
Sequence boundary sampling
由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。
实验结果
(1)数据标注格式
这里采用序列标注任务的格式进行标注
it O
can O
be O
a O
very O
complicated O
thing COMMA
the O
ocean PERIOD
and O
it O
can O
be O
a O
very O
complicated O
thing COMMA
what O
human O
health O
is PERIOD
and O
bringing O
......
(2)实验结果
如有错误,欢迎大家指证。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1754958314a5221579.html
评论列表(0条)