具有稀疏注意力机制的注意力神经网络制造技术

技术编号:36173996 阅读:68 留言:0更新日期:2022-12-31 20:27
用于使用具有一个或多个稀疏注意力子层的注意力神经网络来处理网络输入的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。每个稀疏注意力子层被配置为应用稀疏注意力机制,该稀疏注意力机制针对在对子层的输入中的输入位置的第一真子集中的输入位置,与不在第一真子集中的位置相比不同地进行注意。不在第一真子集中的位置相比不同地进行注意。不在第一真子集中的位置相比不同地进行注意。

【技术实现步骤摘要】
【国外来华专利技术】具有稀疏注意力机制的注意力神经网络
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月5日提交的美国临时申请第63/035,632号的优先权,其全部内容通过引用并入。

技术介绍

[0003]本说明书涉及使用神经网络对网络输入执行机器学习任务。
[0004]神经网络是机器学习模型,其使用一层或多层非线性单元来预测接收输入的输出。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层——即下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统使用包括应用稀疏注意力的注意力子层的注意力神经网络对网络输入执行机器学习任务。
[0006]可以实施本说明书中描述的主题的特定实施例以实现以下优点中的一个或多个。
[0007]本说明书中描述的技术允许神经网络系统在训练期间和运行时,通过使用稀疏注意力机制比现有的基于注意力的网络更有效地处理输入序列、生成输出序列或两者,即在计算资源(例如,存储器、计算能力或两者)方面。
[0008]一些现有的注意力神经网络中的注意力层采用点积注意力机制,该机制涉及为每个给定的查询计算该查询与所有键的相应点积。网络通常从可能是顺序的网络输入中得出这样的键或查询。因此,在对长度很大的序列数据应用点积注意力机制时,计算成本可能会很大。特别是,传统的自注意力层对序列长度具有二次依赖性,导致模型在操作或生成更长的序列时会消耗大量的计算资源。然而,所描述的技术通过应用稀疏注意力机制来解决这些问题,以有效地限制在每个注意力层执行的注意力计算的数量,同时保持与传统自注意力神经网络相当的输出质量。特别是,通过让大多数位置只注意其他位置的稀疏子集,同时让小得多的位置子集(与序列长度相比大小为O(1))注意所有位置(并由所有位置注意),系统可以有效地传播序列长的上下文并确保高质量的输出,同时即使对于非常长的序列也能保持计算效率。作为特定的示例,使用所描述的稀疏注意力,注意力神经网络甚至可以对于需要对具有超过4000个或更多词元的长范围依赖序列的序列进行操作的任务有效地执行,例如,同时具有少于注意整个序列的100个全局词元。因此,包括全局词元的位置的第一真子集可以被包括不超过与包括其他词元的第二真子集的一样多的词元的3/100。
[0009]更具体地说,所描述的技术允许在存储器约束下部署自注意力神经网络,即,与在不采用所描述的技术时所需的存储器空间相比,在更有限的存储器空间内。作为特定的示例,执行自注意力机制所需的乘法的现代硬件芯片具有有限的片上存储器。作为另一个示例,边缘计算设备(例如移动电话)具有有限的设备存储器。通过稀疏化自注意力机制,所描
述的技术允许注意力神经网络生成高质量的输出,同时在这个受限的存储器空间内操作,即,当注意力神经网络被部署时,注意力机制因此由一个或多个具有有限设备存储器的设备应用。特别地,通过仅针对输入位置的第一个真子集中的输入位置,使用给定输入位置处的查询来注意键序列中的所有键,同时对于输入位置的第二真子集中的输入位置,使用输入位置的查询仅注意输入位置的对应真子集处的键,所描述的技术大大减少了需要加载到受限存储器空间中以便计算第二子集中的输入位置的注意输入的键的数量。这允许所描述的自注意力机制在受限的存储器空间内有效地执行。但是,因为对于第一真子集中的位置,该位置的查询仍然用于注意所有输入位置处的所有键,而对于第二真子集中的输入位置,该位置的查询用于注意第一子集中的所有位置的所有键,系统仍然可以跨所有输入位置传播信息并确保高质量的输出。另外,当第二子集中任何给定位置的对应真子集包括(i)从第一真子集之外的输入位置中随机选择的一个或多个输入位置和(ii)在第二真子集中的输入位置的固定数量的位置的窗口内的每个输入位置时,即使在对应真子集中的位置数量相对于第二子集中的位置总数较少时,系统也可以生成高质量的输出,进一步减少为了将注意力机制应用于第二个子集中的位置,需要加载到存储器中的键数。此外,由于第二子集中的位置通常比第一子集中的位置多得多,因此需要加载到存储器中以便对整个层输入应用自注意力机制的键数的总体减少是显着的,同时仍然确保自注意力机制生成高质量的输出。
[0010]本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。本主题的其他特征、方面和优点将从说明书、附图和权利要求中变得显而易见。
附图说明
[0011]图1示出了示例神经网络系统。
[0012]图2A是正被应用的稀疏注意力机制的图示。
[0013]图2B是其中查询和键被划分为块的稀疏注意力方案的图示。
[0014]图3是用于应用稀疏注意力机制的示例过程的流程图。
[0015]不同附图中相同的附图标记和名称表示相同的元件。
具体实施方式
[0016]本说明书描述了在一个或多个位置的一个或多个计算机上实现为计算机程序的系统,该系统在网络输入上执行机器学习任务以生成用于机器学习任务的网络输出。
[0017]机器学习任务可以是任何机器学习任务,其(i)对作为输入序列的网络输入进行操作,(ii)生成作为输出序列的网络输出,或(iii)两者。
[0018]以下是系统可以被配置为执行的机器学习任务的一些示例。
[0019]作为一个示例,该任务可以是神经机器翻译任务。例如,如果神经网络的输入是文本序列,例如,一种语言的词语、短语、字符或词语段的序列,则神经网络生成的输出可能是该文本序列到另一种语言的翻译,即是输入文本序列的翻译的另一种语言的文本序列。作为一个特定示例,该任务可以是多语言机器翻译任务,其中单个神经网络被配置为在多个不同的源语言——目标语言对——之间进行翻译。在这个示例中,源语言文本可以利用标识符增强,该标识符指示神经网络应该将源语言文本翻译成的目标语言。
[0020]作为另一个示例,该任务可以是音频处理任务。例如,如果神经网络的输入是表示口头话语的序列,则神经网络生成的输出可以是文本段集合中的每一个文本段的分数,每个分数表示该文本段是话语的正确转录本的估计可能性。作为另一个示例,如果神经网络的输入是表示口头话语的序列,则神经网络生成的输出可以指示在话语中是否说出了特定的词语或短语(“热词”)。作为另一个示例,如果神经网络的输入是表示口头话语的序列,则神经网络生成的输出可以识别说出了该话语的自然语言。
[0021]作为另一示例,任务可以是对某一自然语言的文本序列进行操作的自然语言处理或理解任务,例如,蕴涵任务、释义任务、文本相似性任务、情感任务、句子完成任务、语法任务等。
[0022]作为另一个示例,任务可以是文本到语音的任务,其中输入是自然语言的文本或自然语言的文本特征,并且网络输出是频谱图、波形或定义用自然语言说出的文本音频的其他数据。
[0023]作为另一个示例,该任务可以是健康预测任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时,使所述一个或多个计算机实现:被配置为执行所述机器学习任务的注意力神经网络,所述注意力神经网络包括一个或多个稀疏注意力层,每个稀疏注意力层包括一个或多个稀疏注意力子层,每个稀疏注意力子层被配置为:接收从对该稀疏注意力层的输入序列中得出的查询序列,所述查询序列在多个输入位置中的每一个处具有相应的查询;接收从对该稀疏注意力层的所述输入序列中得出的键序列,所述键序列在所述多个输入位置中的每一个处具有相应的键;接收从对该稀疏注意力层的所述输入序列中得出的值输入序列,所述值输入序列在所述多个输入位置中的每一个处具有相应的值输入;和生成在所述多个输入位置中的每一个处包括相应的注意输入的注意输入序列,包括:对于所述输入位置的第一真子集中的每个输入位置,通过以下生成在该输入位置处的所述注意输入:使用该输入位置处的所述查询来注意所述键序列中的所有所述键,以为所有所述输入位置生成相应的权重,并根据所述相应的权重计算所有所述输入位置处的所述值输入的加权和;和对于所述输入位置的第二真子集中的每个输入位置,通过以下生成在该输入位置处的所述注意输入:使用该输入位置处的所述查询仅注意所述输入位置的对应真子集处的键,以为所述对应真子集中的每个所述输入位置生成相应的权重,并根据输入位置的所述对应真子集的所述相应的权重计算输入位置的所述对应真子集处的所述值输入的加权和,所述第二真子集中的每个输入位置的输入位置的所述对应真子集包括:所述输入位置的所述第一真子集;和所述输入位置的所述第一真子集之外的一个或多个输入位置。2.根据权利要求1所述的系统,其中,所述第一真子集之外的所述一个或多个输入位置包括:从所述第一真子集之外的所述输入位置中随机选择的一个或多个输入位置。3.根据权利要求1或权利要求2中的任一项所述的系统,其中,在所述第一真子集之外的所述一个或多个输入位置包括:在所述第二真子集中的所述输入位置的固定数量位置的窗口内的每个输入位置。4.根据权利要求1

3中的任一项所述的...

【专利技术属性】
技术研发人员:乔舒亚
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1