神经网络的网络表示生成方法、装置、存储介质和设备制造方法及图纸

技术编号：19824252 阅读：14 留言：0更新日期：2018-12-19 15:35

本申请涉及一种神经网络的网络表示生成方法、装置、存储介质和设备，方法包括：获取与输入序列对应的源端向量表示序列；对源端向量表示序列进行线性变换，分别得到与源端向量表示序列对应的请求向量序列、键向量序列和值向量序列；计算请求向量序列与键向量序列之间的逻辑相似度；根据请求向量序列构建局部强化矩阵；基于逻辑相似度和局部强化矩阵进行非线性变换，得到与各元素对应的局部强化的注意力权重分布；按照注意力权重分布，对值向量序列中的值向量进行融合，得到输入序列对应的网络表示序列。本申请提供的方案生成的网络表示序列不仅能强化局部信息，又能保留输入序列中长距离元素之间的联系。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络的网络表示生成方法、装置、存储介质和设备
本申请涉及计算机
，特别是涉及一种神经网络的网络表示生成方法、装置、计算机可读存储介质和计算机设备。
技术介绍
注意力机制(AttentionMechanism)是针对神经网络中的编码器与解码器的隐藏状态之间的依赖关系建立模型的方法，注意力机制被广泛应用到基于深度学习的自然语言处理(NLP，NaturalLanguageProcessing)各个任务中。SAN(Self-AttentionNetwork，自关注神经网络)是一种基于自关注机制的神经网络模型，属于注意力模型中的一种，能够为输入序列中的每个元素对计算一个注意力权重，从而可以捕获长距离依赖关系，各个元素对应的网络表示并不会收到各个元素间距离的影响。然而，SAN完整地考虑输入序列中每个元素，每个元素和所有元素都要计算注意力权重，这在一定程度上分散了权重的分布，进而弱化了元素之间的联系。
技术实现思路
基于此，有必要针对现有的自关注神经网络考虑每个元素与所有元素之间的注意力权重会弱化元素之间的联系的技术问题，提供一种神经网络的网络表示生成方法、装置、计算机可读存储介质和计算机设备。一种神经网络的网络表示生成方法，包括：获取与输入序列对应的源端向量表示序列；对所述源端向量表示序列进行线性变换，分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列；计算所述请求向量序列与所述键向量序列之间的逻辑相似度；根据所述请求向量序列构建局部强化矩阵；基于所述逻辑相似度和所述局部强化矩阵进行非线性变换，得到与各所述元素对应的局部强化的注意力权重分布...

【技术保护点】
1.一种神经网络的网络表示生成方法，包括：获取与输入序列对应的源端向量表示序列；对所述源端向量表示序列进行线性变换，分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列；计算所述请求向量序列与所述键向量序列之间的逻辑相似度；根据所述请求向量序列构建局部强化矩阵；基于所述逻辑相似度和所述局部强化矩阵进行非线性变换，得到与各所述元素对应的局部强化的注意力权重分布；按照所述注意力权重分布，对所述值向量序列中的值向量进行融合，得到所述输入序列对应的网络表示序列。

【技术特征摘要】
1.一种神经网络的网络表示生成方法，包括：获取与输入序列对应的源端向量表示序列；对所述源端向量表示序列进行线性变换，分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列；计算所述请求向量序列与所述键向量序列之间的逻辑相似度；根据所述请求向量序列构建局部强化矩阵；基于所述逻辑相似度和所述局部强化矩阵进行非线性变换，得到与各所述元素对应的局部强化的注意力权重分布；按照所述注意力权重分布，对所述值向量序列中的值向量进行融合，得到所述输入序列对应的网络表示序列。2.根据权利要求1所述的方法，其特征在于，所述根据所述请求向量序列构建局部强化矩阵包括：根据所述请求向量序列确定各个元素对应的局部强化范围的中心点；根据所述请求向量序列确定各个元素对应的局部强化范围的窗口大小；按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围；基于所述局部强化范围计算两两元素之间的强弱联系，得到局部强化矩阵。3.根据权利要求1所述的方法，其特征在于，所述根据所述请求向量序列构建局部强化矩阵包括：根据所述请求向量序列确定各个元素对应的局部强化范围的中心点；根据所述键向量序列确定统一的局部强化范围的窗口大小；按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围；基于所述局部强化范围计算两两元素之间的强弱联系，得到局部强化矩阵。4.根据权利要求2或3所述的方法，其特征在于，所述根据所述请求向量序列确定各个元素对应的局部强化范围的中心点包括：通过第一前馈神经网络对所述请求向量序列中的各个请求向量进行变换，得到各所述元素对应的第一标量；通过非线性变换函数，对各所述第一标量进行非线性变换，得到与输入序列长度成比例的第二标量；将所述第二标量作为各所述元素对应的局部强化范围的中心点。5.根据权利要求2述的方法，其特征在于，所述根据所述请求向量序列确定各个元素对应的局部强化范围的窗口大小包括：通过第二前馈神经网络对所述请求向量序列中的各个请求向量进行线性变换，得到各所述元素对应的第三标量；通过非线性变换函数，对各所述第三标量进行非线性变换，得到与输入序列长度成比例的第四标量；将所述第四标量作为各所述元素对应的局部强化范围的窗口大小。6.根据权利要求3所述的方法，其特征在于，所述根据所述键向量序列确定统一的局部强化范围的窗口大小包括：获取所述键向量序列中的各个键向量；计算各所述键向量的平均值；对所述平均值进行线性变换得到第五标量；通过非线性变换函数对所述第五标量进行非线性变换，得到与输入序列长度成比例的第六标量；将所述第六标量作为统一的局部强化范围的窗口大小。7.根据权利要求2或3所述的方法，其特征在于，所述按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围包括：将所述中心点作为高斯分布的期望、将所述窗口大小作为高斯分布的方差；根据按照所述均值和所述方差确定的高斯分布确定局部强化范围；所述基于所述局部强化范围计算两两元素之间的强弱联系，得到局部强化矩阵，包括：依据各所述元素在输入序列中的次序，将两两元素之间的强弱联系依次排列，得到局部强化矩阵；其中，两两元素之间的强弱联系通过以下公式计算得到：其中，Gij表示所述输入序列中第j个元素与第i个元素对应的中心点Pi之间的强弱联系，Gij为局部强化矩阵G中第i列向量的第j个元素的值；Pi表示第i个元...

【专利技术属性】
技术研发人员：涂兆鹏，杨宝嵩，张潼，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人