基于动态窗口自注意力机制提取语义特征的槽填充方法技术

技术编号:21432198 阅读:33 留言:0更新日期:2019-06-22 11:55
本发明专利技术公开了一种基于动态窗口自注意力机制提取语义特征的槽填充方法,用于口语对话系统中提取用户话语的语义槽,步骤如下:将文本数据中的句子切分为词;将切分句子得到的词用词嵌入向量表示;选定一个窗口大小,对每个词计算该词需选择当前窗口内的具体信息,进一步得到当前词的上下文特征;对每个词,用该词的上下文特征和词向量,根据自注意力机制计算当前词的融合特征;对于每个词,将当前词的融合特征和当前词向量输入双向循环神经网络中进行分类,输出结果。本发明专利技术提出的动态窗口的方法先计算出上下文特征中哪些是不需要的,筛选掉不需要的特征,然后再通过自注意力机制提取剩余更有价值的特征之间的关系,得到最终的输入特征表示。

【技术实现步骤摘要】
基于动态窗口自注意力机制提取语义特征的槽填充方法
本专利技术涉及口语对话系统中的自然语言理解
,具体涉及一种基于动态窗口自注意力机制提取语义特征的槽填充方法。
技术介绍
槽填充是口语对话系统中自然语言理解模块的重要组成部分,旨在提取用户话语中一些比较重要的“语义槽”信息。槽填充性能的好坏,不仅对影响着自然语言理解的准确与否,也影响着整个对话系统中的后续模块的性能。提升槽填充的性能,可以让系统提取到用户话语中更准确的信息,让系统更好的和用户交互,提升用户的服务体验。在如今越来越多口语系统的不断发展下,槽填充也有着重要的实践和应用价值。在槽填充的输入的特征提取方面,国内外目前的方法都是将词向量特征或者字符向量特征输入到模型进行分类(具体参见:BingLiuandIanLane.“Attention-BasedRecurrentNeuralNetworkModelsforJointIntentDetectionandSlotFilling”,InProceedingsofINTERSPEECH.pp.685-689,2016.),没有进一步提取更好的输入特征。词向量或者字符向量可以在一定程度上表示文本的语义信息,但是直接输入模型并不能提取到很好的特征表示。一些人使用卷积神经网络(CNN)提取输入的上下文特征(具体参见:HeikeAdel,BenjaminRothandHinrichSchütze:“ComparingConvolutionalNeuralNetworkstoTraditionalModelsforSlotFilling”,InProceedingsofNAACL/HLT.pp.828–838,2016.),Li等人使用了自注意力机制提取输入特征(具体参见:ChangliangLi,LiangLi,JiQi.“ASelf-AttentiveModelwithGateMechanismforSpokenLanguageUnderstanding”,InProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.pp.3824–3833,2018.)。卷积神经网络可以提取到输入的上下文特征,但是卷积网络中卷积核的大小是固定的,这样提取到的特征上下文范围也是固定的。尽管自注意力机制是一种很好的特征提取手段,但是它假设了当前上下文中的信息是同等重要的,计算时计算了上下文范围内的所有特征。卷积网络和目前的自注意力机制都计算了上下文范围内所有特征,但是存在一些冗余特征是不需要被计算到的,针对这个问题,目前国内外并没有相关的解决方法。考虑到这一点,目前亟待提出一种基于动态窗口自注意力机制提取语义特征的槽填充方法。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于动态窗口自注意力机制提取语义特征的槽填充方法,该方法首先通过一种动态窗口选择特征,然后采用自注意力机制进行特征融合,更好地提取输入特征之间的关系。本专利技术的目的可以通过采取如下技术方案达到:一种基于动态窗口自注意力机制提取语义特征的槽填充方法,所述的槽填充方法包括下列步骤:S1、将文本数据中的每个句子切分为词;S2、将切分句子得到的词w=(w1,w2,…wT)用词嵌入向量表示,其中T为词的个数,1≤i≤T;S3、选定一个窗口大小L,对于每个词,利用当前词的词嵌入向量计算该词需要选择当前窗口内的信息,得到当前词的上下文特征表示其中t为当前词的下标;S4、对于每一个词,利用该词的上下文特征表示和词向量根据自注意力机制计算当前词的融合特征表示S5、对于每一个词,将当前词的融合特征表示和词向量输入到双向循环神经网络中进行分类,输出结果。进一步地,所述的步骤S3包括:S31、将当前词的词嵌入向量和窗口内词的词嵌入向量输入到下式中,产生动态窗口概率分布分布每个元素其中,函数代表矩阵乘法,S32、在训练和测试时分别利用计算得到变量1≤t≤L-1,maskt的值为1时表示选中第t个词,maskt的值为0时表示没有选中第t个词;S33、利用得到经过筛选后的窗口内的词表示也即是当前词的上下文特征表示。其中,⊙为对应元素相乘二元运算符。进一步地,所述的步骤S32中,在训练时实施过程如下:从分布Gumbel(0,1)=-log(-log(Uniform(0,1)))中产生随机变量定义每个为g的第t维的切片向量,其中Uniform(0,1)为正态分布;定义温度超参数τ,定义变量它的每一个分量是一个近似0或者1的数,[rt-L/2,…,rt-1,rt+1,…,rt+L/2]即可表示为窗口内词是否加入当前词的语义表示中,由下式计算得到rt的第i个分量1≤i≤2:其中,是pt的第i个分量,pt是P的第t个分量,是gt的第i个分量,exp(x)是指数函数;计算的值,计算公式如下:其中,matmul(·)代表矩阵乘法。进一步地,所述的步骤S32中,在预测时实施过程如下:从多项式分布Multinomial(·)中采样产生其中,mask~Multinomial(log(P))。进一步地,所述的步骤S4实施过程如下:其中,matmul(·)代表矩阵乘法,indicator为和矩阵乘法结果张量同维的张量,矩阵乘法结果为0的元素,在indicator中对应位置元素为-∞,否则为0。进一步地,所述的步骤S5包括:S51、遍历每一个词,将当前词的融合特征和当前词向量进行拼接得到S52、将得到的1≤t≤T输入到双向循环神经网络中进行分类,得到输出结果[o1,o2,…,oT]。进一步地,所述的文本数据包括中文数据和/或英文数据。本专利技术相对于现有技术具有如下的优点及效果:1.与卷积网络和目前的自注意力计算上下文范围内所有特征不同,存在一些冗余特征对构建最终的输入特征是没有必要的。本专利技术提出的动态窗口的方法先计算出上下文特征中哪些是不需要的,筛选掉不需要的特征。这里使用求得的动态窗口概率分布,选择合适的温度超参数,利用Gumbel分布和softmax函数求得近似离散的01数值,作为窗口内特征的“掩码”,1代表保留,0代表丢弃,由于该数值是由动态窗口概率分布决定的,对于某个特征,对应的动态窗口概率越大,该数值是1的概率就越大,就越可能保留下来,反之同理,从而保留了窗口内有用的特征,过滤了窗口内无用的特征。2.经过特征的筛选后,再通过自注意力机制提取剩余更有价值的特征之间的关系。用当前词向量和筛选的特征计算得到最终的输入特征。本专利技术使用的自注意力机制包含当前词向量和上下文特征的交互,且它的形式相对简单,相比一般自注意力机制有更少的参数,计算速度更快,可以很好的建模句子上下文特征之间的关系。附图说明图1是本专利技术中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的流程图;图2是本专利技术中公开的基于动态窗口自注意力机制提取语义特征的槽填充方法的工作模型概要图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技本文档来自技高网
...

【技术保护点】
1.一种基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的槽填充方法包括下列步骤:S1、将文本数据中的每个句子切分为词;S2、将切分句子得到的词w=(w1,w2,…wT)用词嵌入向量

【技术特征摘要】
1.一种基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的槽填充方法包括下列步骤:S1、将文本数据中的每个句子切分为词;S2、将切分句子得到的词w=(w1,w2,…wT)用词嵌入向量表示,其中T为词的个数,S3、选定一个窗口大小L,对于每个词,利用当前词的词嵌入向量计算该词需要选择当前窗口内的信息,得到当前词的上下文特征表示其中t为当前词的下标;S4、对于每一个词,利用该词的上下文特征表示和词向量根据自注意力机制计算当前词的融合特征表示S5、对于每一个词,将当前词的融合特征表示和词向量输入到双向循环神经网络中进行分类,输出结果。2.根据权利要求1所述的基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的步骤S3包括:S31、将当前词的词嵌入向量和窗口内词的词嵌入向量输入到下式中,产生动态窗口概率分布分布每个元素其中,函数matmul(·)代表矩阵乘法,S32、在训练和测试时分别利用计算得到变量1≤t≤L-1,maskt的值为1时表示选中第t个词,maskt的值为0时表示没有选中第t个词;S33、利用得到经过筛选后的窗口内的词表示也即是当前词的上下文特征表示。其中,⊙为对应元素相乘二元运算符。3.根据权利要求2所述的基于动态窗口自注意力机制提取语义特征的槽填充方法,其特征在于,所述的步骤S32中,在训练时实施过程如下:从分布Gumbel(0,1)=-log(-log(Uniform(0,1)))中产生随机变量定义每个为g的第t维的切片向量,其...

【专利技术属性】
技术研发人员:马千里闫江月田帅
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1