一种基于位置感知自注意力机制的序列标注模型与标注方法技术

技术编号:22308437 阅读:45 留言:0更新日期:2019-10-16 08:31
本发明专利技术公开了一种基于位置感知自注意力机制的序列标注模型与标注方法,该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明专利技术提出的方法通过引入自注意上下文融合层,能够充分提取单词之间的潜在关系,从而可以在Bi‑LSTM的基础上提供互补的上下文信息。

A sequential tagging model and method based on position aware self attention mechanism

【技术实现步骤摘要】
一种基于位置感知自注意力机制的序列标注模型与标注方法
本专利技术涉及自然语言处理技术,尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。
技术介绍
传统的序列标注方法通常基于经典机器学习算法,例如隐马尔可夫模型(HMM)和条件随机场(CRF),但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步,许多基于深度神经网络模型的研究致力于增强序列标注任务的效果,其通常将字符和单词信息以特征向量表示用于输入,并且以端到端的训练方式学习每个单词的句子级上下文表示。最近,许多研究工作构建以循环神经网络(RNN)为基础的架构,例如BiLSTM-CNN,LSTM-CRF和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能,但其将全部历史信息编码到前一词的隐含状态,从而递归处理每个单词的模式存在局限性,这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力,从而在一定程度上削弱模型对上下文依赖的敏感性。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于位置感知自注意力机制的序列标注模型与标注方法。本专利技术解决其技术问题所采用的技术方案是:一种基于位置感知自注意力机制的序列标注模型,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。按上述方案,所述位置感知自注意力机制为在计算注意力权值过程中引入词语间的相对位置信息。按上述方案,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的自注意上下文融合层。该自注意上下文融合层的结构与前一个自注意上下文融合层相同。按上述方案,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。按上述方案,所述位置感知自注意力机制表示如下:假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:采用两个全连接层来转换自注意力机制的输出其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:其中,是融合门中待训练的权重矩阵,sigmoid函数为激活函数;其中,兼容性函数其中,是待训练的权重矩阵,为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:其中,为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;其中,-∞被用来忽视自注意力机制中元素自身的贡献;为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小,在我们的实验中根据经验设置为10;为用于表示特定于元素的位置偏置函数,考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:一种基于位置感知自注意力机制的序列标注方法,包括以下步骤:1)基于自注意上下文融合层的特征表示阶段自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:的自注意力的输出为X中所有元素对齐分数的加权和,即:采用两个全连接层来转换注意力模块的输出其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:其中,是融合门中待训练的权重矩阵,sigmoid函数为激活函数;2)利用BiLSTM的编码阶段采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;3)解码阶段采用句级对数似然函数CRF层进行标签解码。按上述方案,所述步骤1)中兼容性函数其中,σ(·)是激活函数,是待训练的权重矩阵,为偏置项,σ为激活函数,;其中,Ψij(·)为包含如下三项的位置偏置函数:其中,为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;其中,-∞被用来忽视自注意力机制中元素自身的贡献;为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小,在我们的实验中根据经验设置为10;为用于表示特定于元素的位置偏置函数,考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:注意,相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的本文档来自技高网...

【技术保护点】
1.一种基于位置感知自注意力机制的序列标注模型,其特征在于,该模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。

【技术特征摘要】
1.一种基于位置感知自注意力机制的序列标注模型,其特征在于,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的第二自注意上下文融合层。3.根据权利要求1或2所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。4.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述位置感知自注意力机制表示如下:假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:采用两个全连接层来转换自注意力机制的输出其中W(z1),为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:其中,W(f1),W(f2),是融合门中待训练的权重矩阵,sigmoid函数为激活函数;其中,兼容性函数其中,W(1),是待训练的权重矩阵,为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:其中,为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;其中,-∞被用来忽视自注意力机制中元素自身的贡献;为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏...

【专利技术属性】
技术研发人员:魏巍王赞博陈志毅李恒杨佳鑫
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1