关联长短期记忆神经网络层制造技术

技术编号:19397118 阅读:25 留言:0更新日期:2018-11-10 05:07
与关联长短期记忆(LSTM)神经网络层有关的系统、方法和设备,包括在计算机存储介质上编码的计算机程序,所述关联LSTM神经网络层被配置成为所述关联LSTM层维护内部状态的N个副本,N是大于一的整数。在一个方面中,一种系统包括:递归神经网络,所述递归神经网络包括关联LSTM层,其中,所述关联LSTM层被配置成,针对每个时间步,接收层输入,使用所述时间步的所述层输入和由所述关联LSTM层针对前一个时间步而生成的层输出来更新所述内部状态的N个副本中的每一个,并且使用所述内部状态的N个更新的副本来生成所述时间步的层输出。

【技术实现步骤摘要】
【国外来华专利技术】关联长短期记忆神经网络层
本说明书涉及递归神经网络架构。
技术介绍
神经网络是采用非线性单元的一个或多个层来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一个层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应的参数集合的当前值从接收到的输入生成输出。一些强化学习系统根据神经网络的输出来选择要由代理响应于给定观察结果而执行的动作。一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地,递归神经网络可在在当前时间步计算输出时使用来自前一个时间步的网络的内部状态中的一些或全部。
技术实现思路
一般而言,本说明书中描述的主题的一个创新方面可被具体实现在包括由一个或多个计算机实现的递归神经网络的系统中,其中,递归神经网络被配置成在多个时间步中的每一个接收相应的神经网络输入并且在多个时间步中的每一个生成相应的神经网络输出,其中,递归神经网络包括关联长短期记忆(LSTM)层,其中,关联LSTM层被配置成为关联LSTM层维护内部状态的N个副本,N是大于一的整数,并且其中,关联LSTM层还被配置成在多个时间步中的每一个接收时间步的层输入,使用时间步的层输入和由关联LSTM层针对前一个时间步而生成的层输出来更新内部状态的N个副本中的每一个,并且使用内部状态的N个更新的副本来生成时间步的层输出。此方面的其它实施例包括执行关联LSTM层被配置成执行的操作的方法。此方面的其它实施例包括记录在一个或多个计算机存储装置上的对应的计算机系统、设备和计算机程序,分别被配置成执行方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作,所述软件、固件、硬件或其任何组合在操作中可以使系统执行动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作,所述指令当由数据处理设备执行时,使设备执行动作。实施方式可包括以下可选特征中的一个或多个。更新内部状态的N个副本中的每一个包括根据在时间步的层输入和可选地前一个时间步的层输出来确定时间步的cell(神经元)状态更新;针对内部状态的N个副本中的每一个,根据在时间步的层输入和前一个时间步的层输出来确定对应的变换的输入键;以及针对内部状态的N个副本中的每一个,根据内部状态的副本、cell状态更新和对应的变换的输入键来确定内部状态的更新的副本。针对内部状态的N个副本中的每一个根据在时间步的层输入和前一个时间步的层输出来确定对应的变换的输入键包括根据在时间步的层输入和前一个时间步的层输出来确定输入键;以及针对内部状态的N个副本中的每一个,通过用特定于副本的相应的置换矩阵置换输入键来确定用于副本的对应的变换的输入键。更新内部状态的N个副本中的每一个还包括根据在时间步的层输入和前一个时间步的层输出来确定输入门,以及根据在时间步的层输入和前一个时间步的层输出来确定遗忘门。根据内部状态的副本、cell状态更新和对应的变换的输入键来确定内部状态的更新的副本包括:将遗忘门应用于内部状态的副本以生成初始更新的副本;将输入门应用于cell状态更新以生成最终的cell状态更新;将对应的变换的输入键应用于最终的cell状态更新以生成旋转的cell状态更新;以及组合初始更新的副本和旋转的cell状态更新以生成内部状态的更新的副本。生成时间步的层输出包括:针对内部状态的N个副本中的每一个,根据在时间步的层输入和前一个时间步的层输出来确定对应的变换的输出键;针对内部状态的N个副本中的每一个,使用对应的变换的输出键来修改内部状态的更新的副本;组合N个修改的副本以生成时间步的组合的内部状态;以及根据时间步的组合的内部状态来确定层输出。组合N个修改的副本包括确定N个修改的副本的平均值。针对内部状态的N个副本中的每一个根据在时间步的层输入和前一个时间步的层输出来确定对应的变换的输出键包括根据在时间步的层输入和前一个时间步的层输出来确定输出键;以及针对内部状态的N个副本中的每一个,通过利用特定于副本的相应的置换矩阵置换输出键来确定用于副本的对应的变换的输出键。生成时间步的层输出还包括根据在时间步的层输入和前一个时间步的层输出来确定输出门,并且其中,根据时间步的组合的内部状态来确定层输出包括:对组合的内部状态应用激活函数以确定初始层输出;以及将输出门应用于初始层输出以确定时间步的层输出。本说明书中描述的主题可被实现在特定实施例中以便实现以下优点中的一个或多个。具有长短期记忆(LSTM)架构的递归神经网络层可被实现有用于存储内部状态值的附加存储器单元并且被实现有为内部状态存储器编索引的能力。由LSTM层维护的内部状态值将不太有噪声且更可靠。将增强涉及跟踪输入数据中的多个元素的LSTM计算的准确性。通过针对时间步存储内部状态的多个副本,LSTM层在内部故障或内部状态数据丢失时变得更具弹性。可将LSTM层的时间复杂度降低至依赖于存储的内部状态副本的数量的线性增长级。通过使用未涉及冲突或者冲突已被解决的内部状态副本,可减轻两个或更多个内部状态副本的存储之间的冲突。通过存储更多的内部状态数据,LSTM层可更好地检测其输入和输出数据之间的长期依赖关系。在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据本说明书、附图和权利要求变得显而易见。附图说明图1示出示例神经网络系统。图2是用于生成时间步的层输出的示例过程的流程图。图3是用于使用内部状态的更新的副本来生成层输出的示例过程的流程图。图4是用于更新特定时间步的内部状态的副本的示例过程的流程图。在各个附图中相似的附图标记和名称指示相似的元素。具体实施方式图1示出示例神经网络系统100。神经网络系统100是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例,其中可实现在下面所描述的系统、组件和技术。神经网络系统100是在多个时间步中的每一个接收相应的神经网络输入并且在这些时间步中的每一个生成相应的神经网络输出的机器学习系统。也就是说,在多个时间步中的每一个,神经网络系统100接收神经网络输入并处理该神经网络输入以生成神经网络输出。例如,在给定时间步,神经网络系统100可接收神经网络输入102并生成网络输出132。神经网络系统100可将生成的神经网络输出存储在输出数据储存库中或者提供神经网络输出以用于某个其它直接目的。神经网络系统100可被配置成接收任何种类的数字数据输入并且基于该输入生成任何种类的分数或分类输出。例如,如果神经网络系统100的输入是图像或已从图像中提取的特征,则由神经网络系统100针对给定图像而生成的输出可以是针对一组对象类别中的每一个的分数,其中每个分数表示图像包含属于该类别的对象的图像的估计的可能性。作为另一示例,如果神经网络系统100的输入是因特网资源(例如,web页面)、文档或文档的部分,或者从因特网资源、文档或文档的部分中提取的特征,则由神经网络系统100针对给定因特网资源、文档或文档的部分而生成的输出可以是针对一组话题中的每一个的分数,其中每个分数表示因特网资源、文档或文档部分关于该话题的估计的可能性。作为本文档来自技高网...

【技术保护点】
1.一种系统,包括:由一个或多个计算机实现的递归神经网络,其中,所述递归神经网络被配置成在多个时间步中的每一个接收相应的神经网络输入并且在所述多个时间步中的每一个生成相应的神经网络输出,其中,所述递归神经网络包括关联长短期记忆(LSTM)层,其中,所述关联LSTM层被配置成维护所述关联LSTM层的内部状态的N个副本,N是大于一的整数,并且其中,所述关联LSTM层还被配置成在所述多个时间步中的每一个:接收所述时间步的层输入,使用所述时间步的所述层输入和由所述关联LSTM层针对前一个时间步生成的层输出来更新所述内部状态的所述N个副本中的每一个,并且使用所述内部状态的N个更新的副本来生成所述时间步的层输出。

【技术特征摘要】
【国外来华专利技术】2016.02.04 US 62/291,4671.一种系统,包括:由一个或多个计算机实现的递归神经网络,其中,所述递归神经网络被配置成在多个时间步中的每一个接收相应的神经网络输入并且在所述多个时间步中的每一个生成相应的神经网络输出,其中,所述递归神经网络包括关联长短期记忆(LSTM)层,其中,所述关联LSTM层被配置成维护所述关联LSTM层的内部状态的N个副本,N是大于一的整数,并且其中,所述关联LSTM层还被配置成在所述多个时间步中的每一个:接收所述时间步的层输入,使用所述时间步的所述层输入和由所述关联LSTM层针对前一个时间步生成的层输出来更新所述内部状态的所述N个副本中的每一个,并且使用所述内部状态的N个更新的副本来生成所述时间步的层输出。2.根据权利要求1所述的系统,其中,更新所述内部状态的所述N个副本中的每一个包括:根据在所述时间步的所述层输入和可选地所述前一个时间步的所述层输出来确定所述时间步的cell状态更新;针对所述内部状态的所述N个副本中的每一个,根据在所述时间步的所述层输入和所述前一个时间步的所述层输出来确定对应的变换的输入键;以及针对所述内部状态的所述N个副本中的每一个,根据所述内部状态的副本、所述cell状态更新和所述对应的变换的输入键来确定所述内部状态的更新的副本。3.根据权利要求2所述的系统,其中,针对所述内部状态的所述N个副本中的每一个根据在所述时间步的所述层输入和所述前一个时间步的所述层输出来确定对应的变换的输入键包括:根据在所述时间步的所述层输入和所述前一个时间步的所述层输出来确定输入键;以及针对所述内部状态的所述N个副本中的每一个,通过利用特定于所述副本的相应的置换矩阵置换所述输入键来确定用于所述副本的所述对应的变换的输入键。4.根据权利要求2或3所述的系统,其中,更新所述内部状态的所述N个副本中的每一个还包括:根据在所述时间步的所述层输入和所述前一个时间步的所述层输出来确定输入门,以及根据在所述时间步的所述层输入和所述前一个时间步的所述层输出来确定遗忘门。5.根据权利要求4所述的系统,其中,根据所述内部状态的副本、...

【专利技术属性】
技术研发人员:伊沃·达尼赫尔卡纳尔·埃默里赫·卡尔赫布伦纳格雷戈里·邓肯·韦恩贝尼尼奥·乌里亚马丁尼兹亚历山大·本杰明·格拉韦斯
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1