神经网络的网络表示生成方法、装置、存储介质和设备制造方法及图纸

技术编号:19824252 阅读:14 留言:0更新日期:2018-12-19 15:35
本申请涉及一种神经网络的网络表示生成方法、装置、存储介质和设备,方法包括:获取与输入序列对应的源端向量表示序列;对源端向量表示序列进行线性变换,分别得到与源端向量表示序列对应的请求向量序列、键向量序列和值向量序列;计算请求向量序列与键向量序列之间的逻辑相似度;根据请求向量序列构建局部强化矩阵;基于逻辑相似度和局部强化矩阵进行非线性变换,得到与各元素对应的局部强化的注意力权重分布;按照注意力权重分布,对值向量序列中的值向量进行融合,得到输入序列对应的网络表示序列。本申请提供的方案生成的网络表示序列不仅能强化局部信息,又能保留输入序列中长距离元素之间的联系。

【技术实现步骤摘要】
神经网络的网络表示生成方法、装置、存储介质和设备
本申请涉及计算机
,特别是涉及一种神经网络的网络表示生成方法、装置、计算机可读存储介质和计算机设备。
技术介绍
注意力机制(AttentionMechanism)是针对神经网络中的编码器与解码器的隐藏状态之间的依赖关系建立模型的方法,注意力机制被广泛应用到基于深度学习的自然语言处理(NLP,NaturalLanguageProcessing)各个任务中。SAN(Self-AttentionNetwork,自关注神经网络)是一种基于自关注机制的神经网络模型,属于注意力模型中的一种,能够为输入序列中的每个元素对计算一个注意力权重,从而可以捕获长距离依赖关系,各个元素对应的网络表示并不会收到各个元素间距离的影响。然而,SAN完整地考虑输入序列中每个元素,每个元素和所有元素都要计算注意力权重,这在一定程度上分散了权重的分布,进而弱化了元素之间的联系。
技术实现思路
基于此,有必要针对现有的自关注神经网络考虑每个元素与所有元素之间的注意力权重会弱化元素之间的联系的技术问题,提供一种神经网络的网络表示生成方法、装置、计算机可读存储介质和计算机设备。一种神经网络的网络表示生成方法,包括:获取与输入序列对应的源端向量表示序列;对所述源端向量表示序列进行线性变换,分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列;计算所述请求向量序列与所述键向量序列之间的逻辑相似度;根据所述请求向量序列构建局部强化矩阵;基于所述逻辑相似度和所述局部强化矩阵进行非线性变换,得到与各所述元素对应的局部强化的注意力权重分布;按照所述注意力权重分布,对所述值向量序列中的值向量进行融合,得到所述输入序列对应的网络表示序列。一种神经网络的网络表示生成装置,所述装置包括:获取模块,用于获取与输入序列对应的源端向量表示序列;线性变换模块,用于对所述源端向量表示序列进行线性变换,分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列;逻辑相似度计算模块,用于计算所述请求向量序列与所述键向量序列之间的逻辑相似度;局部强化矩阵构建模块,用于根据所述请求向量序列构建局部强化矩阵;注意力权重分布确定模块,用于基于所述逻辑相似度和所述局部强化矩阵进行非线性变换,得到与各所述元素对应的局部强化的注意力权重分布;融合模块,用于按照所述注意力权重分布,对所述值向量序列中的值向量进行融合,得到所述输入序列对应的网络表示序列。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述神经网络的网络表示生成方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述神经网络的网络表示生成方法的步骤。上述神经网络的网络表示生成方法、装置、计算机可读存储介质和计算机设备,基于输入序列对应的请求向量序列来构建局部强化矩阵,能够在局部强化范围内分配注意力权重,强化局部信息。在对输入序列对应的源端向量表示序列进行线性变换后,可得到请求向量序列、键向量序列和值向量序列,可根据请求向量序列、键向量序列得到逻辑相似度,然后基于逻辑相似度和局部强化矩阵进行非线性变换,得到局部强化的注意力权重分布,实现了对原有的注意力权重的修正,再根据局部强化的注意力权重分布对值向量序列进行加权求和,可以得到强化了局部信息的网络表示序列,得到的网络表示序列不仅能强化局部信息,又能保留输入序列中长距离元素之间的联系。附图说明图1为一个实施例中神经网络的网络表示生成方法的应用环境图;图2为一个实施例中神经网络的网络表示生成方法的流程示意图;图3为一个实施例中计算输入序列对应的网络表示序列的过程示意图;图4为一个实施例中使用高斯分布修正SAN注意力权重分布的系统架构图;图5为一个实施例中根据请求向量序列构建局部强化矩阵的流程示意图;图6为一个实施例中根据请求向量序列确定局部强化范围的流程示意图;图7为一个实施例中根据请求向量序列、键向量序列确定局部强化范围的流程示意图;图8为一个实施例中多层的堆叠式多头自关注神经网络的结构示意图;图9为一个具体的实施例中神经网络的网络表示生成方法的流程示意图;图10为一个实施例中神经网络的网络表示生成装置的结构框图;图11为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中神经网络的网络表示生成方法的应用环境图。参照图1,该神经网络的网络表示生成方法应用于神经网络的网络表示生成系统。该神经网络的网络表示生成系统包括终端110和计算机设备120。终端110和计算机设备120通过蓝牙、USB(UniversalSerialBus,通用串行总线)或网络连接,终端110可向计算机设备120发送待处理的输入序列,可以是实时发送的也可以是非实时发送的,计算机设备120用于接收输入序列,并对输入序列进行变换后输出相应的网络表示序列。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。计算机设备120可以是独立的服务器或终端,也可以是多个服务器组成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。需要说明的是,上述的应用环境只是一个示例,在一些实施例中,计算机设备120可以不通过终端110,直接获取输入序列。例如,当计算机设备为手机时,手机可直接获取输入序列(比如即时文本消息中各词所形成的序列)后,利用手机上配置的神经网络的网络表示生成装置对输入序列进行变换,输出输入序列对应的网络表示序列。如图2所示,在一个实施例中,提供了一种神经网络的网络表示生成方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2,该神经网络的网络表示生成方法具体包括如下步骤:S202,获取与输入序列对应的源端向量表示序列。其中,输入序列是要待进行变换后输出相应的网络表示序列的序列。输入序列中包括一组有序排列的元素,以包括I个元素的输入序列为例,输入序列可以用X={x1,x2,x3,...,xI}表示,输入序列的长度为I。在需要对输入序列进行翻译的场景中,输入序列可以是待翻译文本对应的词序列,输入序列中的各个元素则为词序列中的各个词。若待翻译文本为中文文本,则词序列可以是对待翻译文本进行分词后得到的各个词语按词序排列所形成的序列;若待翻译文本为英文文本,则词序列是各个单词按词序排列所形成的序列。比如,待翻译文本为“BushheldatalkwithSharon”,相应的输入序列X为{Bush,held,a,talk,with,Sharon}。源端向量表示序列是输入序列中的每个元素相应的源端向量表示所构成的序列。源端向量表示序列中的每个向量表示与输入序列中的每个元素一一对应,源端向量表示序列可以用Z={z1,z2,z3,...,zI}表示。具体地,计算机设备可将输入序列中的各个元素转换成固定长度的向量(即WordEmbedding本文档来自技高网...

【技术保护点】
1.一种神经网络的网络表示生成方法,包括:获取与输入序列对应的源端向量表示序列;对所述源端向量表示序列进行线性变换,分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列;计算所述请求向量序列与所述键向量序列之间的逻辑相似度;根据所述请求向量序列构建局部强化矩阵;基于所述逻辑相似度和所述局部强化矩阵进行非线性变换,得到与各所述元素对应的局部强化的注意力权重分布;按照所述注意力权重分布,对所述值向量序列中的值向量进行融合,得到所述输入序列对应的网络表示序列。

【技术特征摘要】
1.一种神经网络的网络表示生成方法,包括:获取与输入序列对应的源端向量表示序列;对所述源端向量表示序列进行线性变换,分别得到与所述源端向量表示序列对应的请求向量序列、键向量序列和值向量序列;计算所述请求向量序列与所述键向量序列之间的逻辑相似度;根据所述请求向量序列构建局部强化矩阵;基于所述逻辑相似度和所述局部强化矩阵进行非线性变换,得到与各所述元素对应的局部强化的注意力权重分布;按照所述注意力权重分布,对所述值向量序列中的值向量进行融合,得到所述输入序列对应的网络表示序列。2.根据权利要求1所述的方法,其特征在于,所述根据所述请求向量序列构建局部强化矩阵包括:根据所述请求向量序列确定各个元素对应的局部强化范围的中心点;根据所述请求向量序列确定各个元素对应的局部强化范围的窗口大小;按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围;基于所述局部强化范围计算两两元素之间的强弱联系,得到局部强化矩阵。3.根据权利要求1所述的方法,其特征在于,所述根据所述请求向量序列构建局部强化矩阵包括:根据所述请求向量序列确定各个元素对应的局部强化范围的中心点;根据所述键向量序列确定统一的局部强化范围的窗口大小;按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围;基于所述局部强化范围计算两两元素之间的强弱联系,得到局部强化矩阵。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述请求向量序列确定各个元素对应的局部强化范围的中心点包括:通过第一前馈神经网络对所述请求向量序列中的各个请求向量进行变换,得到各所述元素对应的第一标量;通过非线性变换函数,对各所述第一标量进行非线性变换,得到与输入序列长度成比例的第二标量;将所述第二标量作为各所述元素对应的局部强化范围的中心点。5.根据权利要求2述的方法,其特征在于,所述根据所述请求向量序列确定各个元素对应的局部强化范围的窗口大小包括:通过第二前馈神经网络对所述请求向量序列中的各个请求向量进行线性变换,得到各所述元素对应的第三标量;通过非线性变换函数,对各所述第三标量进行非线性变换,得到与输入序列长度成比例的第四标量;将所述第四标量作为各所述元素对应的局部强化范围的窗口大小。6.根据权利要求3所述的方法,其特征在于,所述根据所述键向量序列确定统一的局部强化范围的窗口大小包括:获取所述键向量序列中的各个键向量;计算各所述键向量的平均值;对所述平均值进行线性变换得到第五标量;通过非线性变换函数对所述第五标量进行非线性变换,得到与输入序列长度成比例的第六标量;将所述第六标量作为统一的局部强化范围的窗口大小。7.根据权利要求2或3所述的方法,其特征在于,所述按照所述中心点、所述窗口大小确定各个元素对应的局部强化范围包括:将所述中心点作为高斯分布的期望、将所述窗口大小作为高斯分布的方差;根据按照所述均值和所述方差确定的高斯分布确定局部强化范围;所述基于所述局部强化范围计算两两元素之间的强弱联系,得到局部强化矩阵,包括:依据各所述元素在输入序列中的次序,将两两元素之间的强弱联系依次排列,得到局部强化矩阵;其中,两两元素之间的强弱联系通过以下公式计算得到:其中,Gij表示所述输入序列中第j个元素与第i个元素对应的中心点Pi之间的强弱联系,Gij为局部强化矩阵G中第i列向量的第j个元素的值;Pi表示第i个元...

【专利技术属性】
技术研发人员:涂兆鹏杨宝嵩张潼
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1