一种基于位置感知自注意力机制的序列标注模型与标注方法技术

技术编号：22308437 阅读：45 留言：0更新日期：2019-10-16 08:31

本发明专利技术公开了一种基于位置感知自注意力机制的序列标注模型与标注方法，该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联，得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明专利技术提出的方法通过引入自注意上下文融合层，能够充分提取单词之间的潜在关系，从而可以在Bi‑LSTM的基础上提供互补的上下文信息。

A sequential tagging model and method based on position aware self attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于位置感知自注意力机制的序列标注模型与标注方法
本专利技术涉及自然语言处理技术，尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。
技术介绍
传统的序列标注方法通常基于经典机器学习算法，例如隐马尔可夫模型(HMM)和条件随机场(CRF)，但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步，许多基于深度神经网络模型的研究致力于增强序列标注任务的效果，其通常将字符和单词信息以特征向量表示用于输入，并且以端到端的训练方式学习每个单词的句子级上下文表示。最近，许多研究工作构建以循环神经网络(RNN)为基础的架构，例如BiLSTM-CNN，LSTM-CRF和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能，但其将全部历史信息编码到前一词的隐含状态，从而递归处理每个单词的模式存在局限性，这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力，从而在一定程度上削弱模型对上下文依赖的敏感性。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷，提供一种基于位置感知自注意力机制的序列标注模型与标注方法。本专利技术解决其技术问题所采用的技术方案是：一种基于位置感知自注意力机制的序列标注模型，该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联...

【技术保护点】
1.一种基于位置感知自注意力机制的序列标注模型，其特征在于，该模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联，得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征；BiLSTM，由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收自注意上下文融合层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成每个词的全局语义特征表示；CRF层，用于接收编码器的输出作为输入，根据序列得分选择全局最优的标签序列。

【技术特征摘要】
1.一种基于位置感知自注意力机制的序列标注模型，其特征在于，该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联，得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征；BiLSTM，由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收自注意上下文融合层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成每个词的全局语义特征表示；CRF层，用于接收编码器的输出作为输入，根据序列得分选择全局最优的标签序列。2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述编码器还包括用于对BiLSTM的输出进行进一步处理，通过提供补充的上下文信息，得到最终待解码的特征表示的第二自注意上下文融合层。3.根据权利要求1或2所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述自注意上下文融合层根据输入序列得到输出特征的过程如下：针对某特定词语,首先计算序列中所有词语和它的注意力权值，即对齐分数，在计算对齐分数过程中引入词语间的相对位置信息，然后以归一化后的对齐分数作为权重，计算所有词语表示的加权之和，得到该特定词语经过注意力机制的输出；为了增强自注意力网络的特征抽取能力，在上述输出基础上再进行两次全连接运算，通过非线性变化增强模型的表示能力；最后，通过一个融合门控机制，将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和，得到该词语经过自注意上下文信息融合层的最终特征输出。4.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述位置感知自注意力机制表示如下：假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重，采用兼容性函数来测量和间的对齐得分；然后通过softmax函数对X内所有元素进行归一化以转换对齐分数，即：的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和，即：采用两个全连接层来转换自注意力机制的输出其中W(z1),为待训练的权重矩阵，为偏置项，tanh为激活函数，代表xi通过自注意力机制的输出；xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合，即：其中，W(f1),W(f2),是融合门中待训练的权重矩阵，sigmoid函数为激活函数；其中，兼容性函数其中，W(1),是待训练的权重矩阵，为偏置项，σ为激活函数，Ψij(·)为包含如下三项的位置偏置函数：其中，为自禁掩码偏置函数，对于特定元素xi，自注意力机制的目标是衡量其对其他元素的依赖性，因此需要将每个元素对自身注意力屏蔽；其中，-∞被用来忽视自注意力机制中元素自身的贡献；为距离感知高斯偏置函数，在序列标注任务上建模考虑本地上下文相对位置信息，通过距离感知高斯偏...

【专利技术属性】
技术研发人员：魏巍，王赞博，陈志毅，李恒，杨佳鑫，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人