用于无模型强化学习的堆叠的卷积长短期记忆制造技术

技术编号:27230064 阅读:23 留言:0更新日期:2021-02-04 11:55
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于控制与环境交互的代理。方法中的一种方法包括获取观察的表示;使用包括多个卷积长短期记忆LSTM神经网络层的卷积LSTM神经网络来处理表示;使用动作选择神经网络处理该时间步长的包括最终LSTM隐藏状态输出的动作选择输入,该动作选择神经网络被配置为接收动作选择输入并处理该动作选择输入以生成将定义在该时间步长处要由代理执行的动作的动作选择输出:根据动作选择策略,从动作选择输出中选择在该时间步长处要由代理执行的动作;以及使代理执行所选择的动作。以及使代理执行所选择的动作。以及使代理执行所选择的动作。

【技术实现步骤摘要】
【国外来华专利技术】用于无模型强化学习的堆叠的卷积长短期记忆

技术介绍

[0001]本说明书涉及强化学习。
[0002]在强化学习系统中,代理通过执行动作来与环境交互,该动作是由强化学习系统响应于接收到表征环境当前状态的观察而选择的。
[0003]一些强化学习系统根据神经网络的输出响应于接收到给定的观察来选择要由代理执行的动作。
[0004]神经网络是机器学习模型,该机器学习模型采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络是除了输出层以外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中下一层的输入,即,下一个隐藏层或输出层。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。

技术实现思路

[0005]本说明书总体上描述了一种控制与环境交互的代理的强化学习系统。
[0006]特别地,强化学习系统包括控制神经网络系统,该控制神经网络系统又至少包括卷积长短期记忆(convLSTM)神经网络和动作选择神经网络。convLSTM神经网络包括多个convLSTM神经网络层,该多个convLSTM神经网络层一个接一个地设置在堆栈中。
[0007]在一个创新方面中,描述了一种用于控制代理与环境交互的系统,该系统包括一个或多个计算机和一个或多个存储设备,该存储设备存储有指令,这些指令在由一个或多个计算机执行时使一个或多个计算机实施控制神经网络系统。
[0008]控制神经网络系统可以包括卷积长短期记忆(LSTM)神经网络,该LSTM神经网络包括多个卷积LSTM神经网络层,该多个卷积LSTM神经网络层一个接一个地设置在堆栈中。卷积LSTM神经网络可以被配置为在多个时间步长中的每一个时间步长处,接收表征环境在该时间步长处的状态的观察的表示并且处理(i)表示和(ii)卷积LSTM神经网络的直到该时间步长为止的状态以(iii)生成该时间步长的最终LSTM隐藏状态输出并且(iv)更新卷积LSTM神经网络在该时间步长的状态。控制神经网络系统可以进一步包括动作选择神经网络,该动作选择神经网络被配置为在多个时间步长中的每一个时间步长处,接收动作选择输入,该动作选择输入包括该时间步长的最终LSTM隐藏状态输出,并且被配置为处理动作选择输入,以根据动作选择策略生成动作选择输出,该动作选择输出定义在该时间步长处要由代理执行的动作。
[0009]在实施方式中,直到该时间步长为止的状态包括堆栈中的每个卷积LSTM层的相应单元状态和相应隐藏状态。该时间步长的最终LSTM隐藏状态输出可以包括在该时间步长的更新状态下的堆栈中的最后一个的卷积LSTM层的隐藏状态。
[0010]ConvLSTM层结构可能有助于在网络中保存空间信息,并且重复convLSTM层可能促进系统中多个不同级别的序列处理,从而促进通常需要计划的任务,例如,因为它们具有组合和/或过程方面。因此,可以允许在延长的时间段存储空间信息的基于convLSTM的处理与以系统内的层次结构的处理这样的信息的序列的组合可以提供协同组合,该协同组合特别
擅长学习解决将预期需要计划的类型的困难的强化学习问题,而不需要在系统内包括环境的显式模型。
[0011]在实施方式中,卷积LSTM神经网络可以被配置为处理每个时间步长的N个瞬间,其中,N大于1。处理可以包括:对于N个瞬间中的每一个,处理(i)表示和(ii)卷积LSTM神经网络的直到该瞬间为止的状态以更新该瞬间的卷积LSTM神经网络的状态。该时间步长的最终LSTM隐藏状态输出可以包括在该时间步长的第N个瞬间之后的堆栈中的最后一个卷积LSTM层的隐藏状态。该时间步长的卷积LSTM神经网络的更新后的状态可以包括该时间步长的第N个瞬间之后的卷积LSTM神经网络的更新后的状态。直到该时间步长的N个瞬间中的第一个瞬间为止的卷积LSTM神经网络的状态可以包括前一时间步长的卷积LSTM神经网络的更新后的状态。
[0012]这种方法可以促进任务的执行,这些任务通常需要在多个时间步长内进行计划,但是提供额外的时间步长间隔,即瞬间,在此期间,系统可以在采取动作之前进行计划。
[0013]在实施方式中,堆栈中的每个卷积LSTM神经网络层可以被配置为在N个瞬间中的每一个瞬间,处理此瞬间的层输入,以更新到该瞬间为止的卷积LSTM神经网络层的单元状态和隐藏状态。除了堆栈中的第一层之外的每个特定卷积LSTM神经网络层的瞬间的层输入都可以包括紧接在堆栈中的特定层之前的层的瞬间的更新后的隐藏状态。堆栈中的每个层的瞬间的层输入可以包括时间步长的表示。对于N个瞬间中的第一个之外的每个瞬间,堆栈中的第一层的瞬间的层输入可以包括前一瞬间的堆栈中的最后一层的更新后的隐藏状态。对于N个瞬间中的第一个,堆栈中的第一层的瞬间的层输入可以包括前一时间步长的堆栈中的最后一层的更新后的隐藏状态。这可以进一步促进执行任务,这些任务可以从在采取动作之前的多个瞬间内进行的计划中受益。
[0014]在一些实施方式中,卷积LSTM神经网络进一步被配置为对每个瞬间和每个卷积LSTM层执行以下操作:对于时间步长的层的更新后的隐藏状态的每个通道维度,空间地应用一个或多个池化操作,以生成通道维度的一个或多个池化输出,使用与卷积LSTM层对应的线性层来投影池化输出,以生成投影输出,并且在空间上平铺投影输出以生成总结张量(summary tensor)。堆栈中的每一层的瞬间的层输入可以包括前一瞬间的层的总结张量,或如果瞬间是时间步长的第一瞬间,则层输入包括前一时间步长的第N个瞬间的层的总结张量。一个或多个池化操作包括最大池化操作、平均池化操作或两者。这可能有助于信息通过系统更快地传播,并且因此可能改进期望更快的响应的任务的性能和/或可能促进任务的更快地学习。
[0015]在一些实施方式中,卷积LSTM神经网络可以被配置为将特征图附加到堆栈中的卷积LSTM层的卷积算子的输入,该特征图将输入张量的边界指派给卷积算子。当观察包括图像并且边界限定出图像的边缘时,这可能促进系统学习以执行任务。
[0016]在一些实施方式中,动作选择单元可以进一步包括时间步长的表示。
[0017]神经网络系统可以进一步包括编码器神经网络,该编码器神经网络被配置为在多个时间步长中的每一个时间步长处,处理表征该时间步长处的环境的状态的观察,以生成该时间步长的观察的表示。观察可以包括环境的图像,并且编码器神经网络可以包括一个或多个卷积层。动作选择神经网络包括一个或多个全连接层。
[0018]在一些实施方式中,表示包括H
×
W
×
C张量。卷积LSTM神经网络的状态和最终LSTM
隐藏状态输出可以保存表示的空间维度。
[0019]描述了一种控制与环境交互的代理的方法。方法可以包括以下内容:在多个时间步长中的每一个时间步长处,获得表征该时间步长处的环境的状态的观察的表示。方法可以进一步包括:在每个时间步长处,使用卷积长短期记忆(LSTM)神经网络来处理表示,该LSTM神经网络包括多个卷积LSTM神经网络层,该多个卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于控制与环境交互的代理的系统,所述系统包括一个或多个计算机和一个或多个存储设备,所述存储设备存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施控制神经网络系统,所述控制神经网络系统包括:卷积长短期记忆LSTM神经网络,所述LSTM神经网络包括多个卷积LSTM神经网络层,所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中,其中,所述卷积LSTM神经网络被配置为在多个时间步长中的每一个时间步长处,接收表征所述环境在所述时间步长处的状态的观察的表示,并且处理(i)所述表示和(ii)所述卷积LSTM神经网络的直到所述时间步长为止的状态,以(iii)生成所述时间步长的最终LSTM隐藏状态输出并且(iv)更新所述时间步长的所述卷积LSTM神经网络的所述状态;以及动作选择神经网络,所述动作选择神经网络被配置为在所述多个时间步长中的每一个时间步长处接收动作选择输入,所述动作选择输入包括所述时间步长的所述最终LSTM隐藏状态输出,并且处理所述动作选择输入,以根据动作选择策略生成动作选择输出,所述动作选择输出定义在所述时间步长处要由所述代理执行的动作。2.根据任意前述权利要求所述的系统,其中,直到所述时间步长为止的所述状态包括所述堆栈中的每个卷积LSTM层的相应单元状态和相应隐藏状态,并且其中,所述时间步长的所述最终LSTM隐藏状态输出是所述时间步长的更新后的状态下所述堆栈中的最后一个卷积LSTM层的隐藏状态。3.根据权利要求2所述的系统,其中,所述卷积LSTM神经网络被配置为针对每个时间步长的N个瞬间进行处理,其中,N大于1,并且其中,所述处理包括,对于所述N个瞬间中的每一个瞬间:处理(i)所述表示和(ii)所述卷积LSTM神经网络的直到所述瞬间为止的状态,以更新所述瞬间的所述卷积LSTM神经网络的所述状态。4.根据权利要求3所述的系统,其中,所述时间步长的所述最终LSTM隐藏状态输出是在所述时间步长的第N个瞬间之后的所述堆栈中的所述最后一个卷积LSTM层的所述隐藏状态,并且其中,所述时间步长的所述卷积LSTM神经网络的更新后的状态是在所述时间步长的所述第N个瞬间之后的所述卷积LSTM神经网络的更新后的状态。5.根据权利要求3或者4中的任一项所述的系统,其中,直到所述时间步长的所述N个瞬间中的第一个瞬间为止的所述卷积LSTM神经网络的状态是前一时间步长的所述卷积LSTM神经网络的更新后的状态。6.根据权利要求3-5中的任一项所述的系统,其中,所述堆栈中的每个卷积LSTM神经网络层被配置为在所述N个瞬间中的每一个瞬间处:处理所述瞬间的层输入,以更新所述卷积LSTM神经网络层的直到所述瞬间为止的所述单元状态和所述隐藏状态。7.根据权利要求6所述的系统,其中,除了所述堆栈中的所述第一层之外的每个特定卷积LSTM神经网络层的所述瞬间的所述层输入包括紧接在所述堆栈中的所述特定层之前的层的瞬间的更新后的隐藏状态。8.根据权利要求6或者7中的任一项所述的系统,其中,所述堆栈中的每一层的瞬间的层输入包括所述时间步长的所述表示。9.根据权利要求6-8中的任一项所述的系统,其中,对于所述N个瞬间中的除了所述第
一个瞬间之外的每个瞬间,所述堆栈中的所述第一层的所述瞬间的所述层输入包括前一瞬间的所述堆栈中的最后一层的更新后的隐藏状态。10.根据权利要求9所述的系统,其中,对于所述N个瞬间中的所述第一个瞬间,所述堆栈中的所述第一层的所述瞬间的所述层输入包括前一时间步长的所述堆栈中的最后一层的更新后的隐藏状态。11.根据权利要求6-10中的任一项所述的系统,其中,所述卷积LSTM神经网络进一步被配置为对于每个瞬间并且对于每个卷积LSTM层:对于所述时间步长的所述层的更新后的隐藏状态的每个通道维度:空间地应用一个或多个池化操作,以生成所述通道维度的一个或多个池化输出,使用与所述卷积LSTM层对应的线性层来投影所述池化输出,以生成投影输出;以及在空间上平铺所述投影输出以生成总结张量,其中,所述瞬间的所述堆栈中的每一层的层输入包括前一瞬间的层的总结张量,或如果所述瞬间是所述时间步长的所述第一瞬间,则包括前一时间步长的第N个瞬间的层的总结张量。12.根据权利要求11所述的系统,其中,所述一个或多个池化操作包括最大池化操作、平均池化操作或两者。13.根据任意前述权利要求所述的系统,其中,所述卷积LSTM神经网络被配置为将特征图附加到所述堆栈中的所述卷积LSTM层的卷积算子的输入,所述特征图将输入张量的边界指派到所述卷积算子。14.根据任意前述权利要求所述的系统,其中,所述动作选择输入进一步包括所述时间步长的所述表示。15.根据任意前述权利要求所述的系统,其中,所述神经网络系统进一步包括:编码器神经网络,所述编码器神经网络被配置为在所述多个时间步长中的每一个时间步长处,处理表征所述环境在所述时间步长处的所述状态的所述观察,以生成所述时间步长的所述观察的所述表示。16.根据权利要求15所述的系统,其中,所述观察包括所述环境的图像,并且其中,所述编码器神经网络包括一个或多个卷积层。17.根据任意前述权利要求所述的系统,其中,所述动作选择神经网络包括一个或多个全连接层。18.一个或多个存储指令的计算机可读存储介质,所述指令当由一个或多个计算机执行时,使所述一个或多个计算机实现根据权利要求1-17和38中的任一项所述的控制神经网络系统。19.一种用于控制与环境交互的代理的方法,所述方法包括,在多个时间步长中的每一个时间步长处:获得表征所述环境在所述时间步长处的状态的观察的表示;使用卷积长短期记忆LSTM神经网络来处理所述表示,所述LSTM神经网络包括多个卷积LSTM神经网络层,所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中,其中,...

【专利技术属性】
技术研发人员:迈赫迪
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1