增强基于注意力的神经网络以选择性地关注过去的输入制造技术

技术编号:33363862 阅读:11 留言:0更新日期:2022-05-11 22:21
包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于对作为序列的网络输入执行机器学习任务以生成网络输出。在一个方面,方法中的一个包括,针对层输入的每个特定序列:针于神经网络中的每个注意力层:维护事段记忆数据;维护压缩记忆数据;接收要由注意力层处理的层输入;以及对(i)该层的压缩记忆数据中的压缩表示、(ii)该层的事段记忆数据中的隐藏状态,以及(iii)特定网络输入中的多个输入位置中的每个输入位置处的相应的隐藏状态应用注意力机制,以生成层输入中的每个输入位置的相应的激活。入位置的相应的激活。入位置的相应的激活。

【技术实现步骤摘要】
【国外来华专利技术】增强基于注意力的神经网络以选择性地关注过去的输入
[0001]相关申请的交叉引用
[0002]本申请要求于2019年9月25日提交的美国临时申请第62/906,078号的优先权。在先申请的公开内容被认为是本申请的公开内容的一部分,并且通过引用并入本申请的公开内容中。


[0003]本说明书涉及神经网络。

技术介绍

[0004]神经网络是采用一个或多个非线性单元层的机器学习模型来预测接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值由所接收的输入生成输出。

技术实现思路

[0005]本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统实现被配置成对网络输入执行机器学习任务以生成网络输出的神经网络。值得注意的是,神经网络是与一个或多个存储器设备进行数据通信的记忆增强注意力神经网络,该一个或多个存储器设备维护(i)短期粒度记忆,也被称为事段记忆(episodic memory),其存储在执行任务时由神经网络的一个或多个层中的每个层生成的相对最近(例如,在时间、序列或位置方面)的信息,以及(ii)长期粗略记忆,也被称为压缩记忆,其存储在执行任务时由神经网络的所述一个或多个层中的每个层生成的较旧信息。当由网络输入生成网络输出时,系统可以利用存储在两种类型的存储器处的信息。
[0006]一般而言,本说明书中描述的主题的一个创新方面可以体现在用于使用神经网络处理网络输入序列以生成网络输出的方法中,其中每个网络输入在多个输入位置中的每个输入位置处具有相应的输入,所述神经网络具有多个注意力层,每个注意力层各自对层输入应用注意力机制,所述层输入包括在所述多个输入位置中的每个输入位置处的相应的隐藏状态,以针对每个输入位置生成相应的激活。所述方法包括,针对所述序列中的每个特定网络输入:针对所述神经网络中的每个注意力层:维护对应的事段记忆数据,所述对应的事段记忆数据包括由所述注意力层针对所述序列中的所述特定网络输入之前的第一部分先前网络输入而处理的相应的隐藏状态;维护对应的压缩记忆数据,所述对应的压缩记忆数据包括由所述注意力层针对所述序列中的所述第一部分先前网络输入之前的第二部分先前网络输入而处理的相应的隐藏状态的压缩表示;在使用所述神经网络处理所述特定网络输入期间,接收要由所述注意力层处理的层输入;以及对(i)用于所述层的所述压缩记忆数据中的所述压缩表示、(ii)用于所述层的所述事段记忆数据中的所述隐藏状态,以及(iii)所述特定网络输入中的所述多个输入位置中的每个输入位置处的相应的隐藏状态应用注
意力机制,以生成针对所述层输入中的每个输入位置的相应的激活。
[0007]所述方法还可以包括:更新所述事段记忆数据以包括所述特定网络输入中的每个输入位置的相应的隐藏状态;以及更新所述压缩记忆数据以包括所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态的压缩表示。更新所述压缩记忆数据以包括所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态的压缩表示可以包括:确定压缩率;根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,以生成压缩表示;以及修改所述压缩记忆数据以包括所生成的压缩表示。所述方法还可以包括从所述事段记忆数据中移除所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态。根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态可以包括:将最大池化函数应用于所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,其中步幅等于所述压缩率。根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态可以包括:将平均池化函数应用于所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,其中步幅等于所述压缩率。根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态可以包括:以与所述最早网络输入和所述第二部分先前网络输入中的多个输入位置相关联的相应的激活权重的降序,对所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态进行排序;以及丢弃所述最早网络输入中的位置的相应的隐藏状态以及由所述注意力层针对所述第二部分先前网络输入进行了处理的与最低激活权重相关联的相应的隐藏状态。根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态可以包括:确定用于1D卷积函数的内核大小;以及将所述1D卷积函数应用于所述最早网络输入的相应的隐藏状态以及由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,其中步幅等于所述压缩率并且内核大小等于所确定的内核大小。根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态可以包括:将多层扩张1D卷积函数应用于所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态。所述特定网络输入是在所述序列中、之前有至少预定阈值数量的网络输入的输入。所述方法还可以包括:对于之前有少于所述预定阈值数量的网络输入的多个较早网络输入中的每个较早网络输入:针对所述神经网络中的每个注意力层:维护对应的事段记忆数据,所述对应的事段记忆数据包括要由所述注意力层针对在所述较早网络输入之前的先前网络输入处理的相应的隐藏状态;在使用所述神经网络处理所述较早网络输入期间,接收要由所述注意力层处理的层输入;对(i)所述层的事段记忆数据中的隐藏状态以及(ii)所述较早网络输入中的多个输入位置中的每个输入位置处的相应的隐藏状态应用注意力机制,以生成针对所述层输入中的每个输入位置的相应的激活;以及更新事段记忆数据以包括所述较早网络输入中的每个输入位置的相应的隐藏状态。在一些实现方式中,所述预定阈值数量的网络
输入由所述事段记忆数据的大小的预定阈值定义。在一些实现方式中,将用于所述特定网络输入中的每个输入位置的事段记忆数据和相应的隐藏状态表示为相应的多维数组;并且更新所述事段记忆数据以包括所述特定网络输入中的每个输入位置的相应的隐藏状态包括:沿着所述多维数组的相同维度级联所述两个多维数组。在一些实现方式中,所述神经网络还可以包括一个或多个全连接层、一个或多个层归一化层、一个或多个激活层或一个或多个卷积层。所述方法还可以包括:在训练数据上训练所述神经网络以重复地更新网络参数的当前值,其中,在训练期间:在每两次连续更新之间逐渐增加训练神经网络输入的数量。所述方法还可以包括在训练期间:将停止梯度应用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于使用神经网络处理网络输入序列以生成网络输出的方法,其中每个网络输入在多个输入位置中的每个输入位置处具有相应的输入,所述神经网络具有多个注意力层,每个注意力层各自对层输入应用注意力机制,所述层输入包括在所述多个输入位置中的每个输入位置处的相应的隐藏状态,以针对每个输入位置生成相应的激活,并且所述方法包括,针对所述序列中的每个特定网络输入:针对所述神经网络中的每个注意力层:维护对应的事段记忆数据,所述对应的事段记忆数据包括由所述注意力层针对所述序列中的所述特定网络输入之前的第一部分先前网络输入进行了处理的相应的隐藏状态;维护对应的压缩记忆数据,所述对应的压缩记忆数据包括由所述注意力层针对所述序列中的所述第一部分先前网络输入之前的第二部分先前网络输入进行了处理的相应的隐藏状态的压缩表示;在使用所述神经网络处理所述特定网络输入期间,接收要由所述注意力层处理的层输入;以及对(i)用于所述层的所述压缩记忆数据中的所述压缩表示、(ii)用于所述层的所述事段记忆数据中的所述隐藏状态、以及(iii)所述特定网络输入中的所述多个输入位置中的每个输入位置处的相应的隐藏状态应用注意力机制,以生成针对所述层输入中的每个输入位置的相应的激活。2.根据权利要求1所述的方法,还包括:更新所述事段记忆数据以包括所述特定网络输入中的每个输入位置的相应的隐藏状态;以及更新所述压缩记忆数据以包括所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态的压缩表示。3.根据权利要求1

2中的任一项所述的方法,其中,更新所述压缩记忆数据以包括所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态的压缩表示包括:确定压缩率;根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,以生成压缩表示;以及修改所述压缩记忆数据以包括所生成的压缩表示。4.根据权利要求3所述的方法,还包括:从所述事段记忆数据中移除所述第一部分先前网络输入中的最早网络输入的相应的隐藏状态。5.根据权利要求3

4中的任一项所述的方法,其中,根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态包括:将最大池化函数应用于所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,其中步幅等于所述压缩率。6.根据权利要求3

4中的任一项所述的方法,其中,根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态包括:
将平均池化函数应用于所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态,其中步幅等于所述压缩率。7.根据权利要求3

4中的任一项所述的方法,其中,根据所述压缩率压缩所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态包括:以与所述最早网络输入和所述第二部分先前网络输入中的所述多个输入位置相关联的相应的激活权重的降序,对所述最早网络输入的相应的隐藏状态和由所述注意力层针对所述第二部分先前网络输入进行了处理的相应的隐藏状态进行排序;以及丢弃所述最早网络输入中的位置的相应的隐藏状态以及由所述注意力层针对所述第二部分先前网络输入进行了处理的...

【专利技术属性】
技术研发人员:杰克
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1