用于无模型强化学习的堆叠的卷积长短期记忆制造技术

技术编号：27230064 阅读：23 留言：0更新日期：2021-02-04 11:55

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于控制与环境交互的代理。方法中的一种方法包括获取观察的表示；使用包括多个卷积长短期记忆LSTM神经网络层的卷积LSTM神经网络来处理表示；使用动作选择神经网络处理该时间步长的包括最终LSTM隐藏状态输出的动作选择输入，该动作选择神经网络被配置为接收动作选择输入并处理该动作选择输入以生成将定义在该时间步长处要由代理执行的动作的动作选择输出：根据动作选择策略，从动作选择输出中选择在该时间步长处要由代理执行的动作；以及使代理执行所选择的动作。以及使代理执行所选择的动作。以及使代理执行所选择的动作。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于无模型强化学习的堆叠的卷积长短期记忆

技术介绍

[0001]本说明书涉及强化学习。
[0002]在强化学习系统中，代理通过执行动作来与环境交互，该动作是由强化学习系统响应于接收到表征环境当前状态的观察而选择的。
[0003]一些强化学习系统根据神经网络的输出响应于接收到给定的观察来选择要由代理执行的动作。
[0004]神经网络是机器学习模型，该机器学习模型采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络是除了输出层以外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中下一层的输入，即，下一个隐藏层或输出层。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。

技术实现思路

[0005]本说明书总体上描述了一种控制与环境交互的代理的强化学习系统。
[0006]特别地，强化学习系统包括控制神经网络系统，该控制神经网络系统又至少包括卷积长短期记忆(convLSTM)神经网络和动作选择神经网络。convLSTM神经网络包括多个convLSTM神经网络层，该多个convLSTM神经网络层一个接一个地设置在堆栈中。
[0007]在一个创新方面中，描述了一种用于控制代理与环境交互的系统，该系统包括一个或多个计算机和一个或多个存储设备，该存储设备存储有指令，这些指令在由一个或多个计算机执行时使一个或多个计算机实施控制神经网络系统。
[0008]控制神经网络系统可以包括卷积长短期记忆(LSTM)神经网络，该LSTM神经网络包括多个卷积LSTM神经网络层...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于控制与环境交互的代理的系统，所述系统包括一个或多个计算机和一个或多个存储设备，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实施控制神经网络系统，所述控制神经网络系统包括：卷积长短期记忆LSTM神经网络，所述LSTM神经网络包括多个卷积LSTM神经网络层，所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中，其中，所述卷积LSTM神经网络被配置为在多个时间步长中的每一个时间步长处，接收表征所述环境在所述时间步长处的状态的观察的表示，并且处理(i)所述表示和(ii)所述卷积LSTM神经网络的直到所述时间步长为止的状态，以(iii)生成所述时间步长的最终LSTM隐藏状态输出并且(iv)更新所述时间步长的所述卷积LSTM神经网络的所述状态；以及动作选择神经网络，所述动作选择神经网络被配置为在所述多个时间步长中的每一个时间步长处接收动作选择输入，所述动作选择输入包括所述时间步长的所述最终LSTM隐藏状态输出，并且处理所述动作选择输入，以根据动作选择策略生成动作选择输出，所述动作选择输出定义在所述时间步长处要由所述代理执行的动作。2.根据任意前述权利要求所述的系统，其中，直到所述时间步长为止的所述状态包括所述堆栈中的每个卷积LSTM层的相应单元状态和相应隐藏状态，并且其中，所述时间步长的所述最终LSTM隐藏状态输出是所述时间步长的更新后的状态下所述堆栈中的最后一个卷积LSTM层的隐藏状态。3.根据权利要求2所述的系统，其中，所述卷积LSTM神经网络被配置为针对每个时间步长的N个瞬间进行处理，其中，N大于1，并且其中，所述处理包括，对于所述N个瞬间中的每一个瞬间：处理(i)所述表示和(ii)所述卷积LSTM神经网络的直到所述瞬间为止的状态，以更新所述瞬间的所述卷积LSTM神经网络的所述状态。4.根据权利要求3所述的系统，其中，所述时间步长的所述最终LSTM隐藏状态输出是在所述时间步长的第N个瞬间之后的所述堆栈中的所述最后一个卷积LSTM层的所述隐藏状态，并且其中，所述时间步长的所述卷积LSTM神经网络的更新后的状态是在所述时间步长的所述第N个瞬间之后的所述卷积LSTM神经网络的更新后的状态。5.根据权利要求3或者4中的任一项所述的系统，其中，直到所述时间步长的所述N个瞬间中的第一个瞬间为止的所述卷积LSTM神经网络的状态是前一时间步长的所述卷积LSTM神经网络的更新后的状态。6.根据权利要求3-5中的任一项所述的系统，其中，所述堆栈中的每个卷积LSTM神经网络层被配置为在所述N个瞬间中的每一个瞬间处：处理所述瞬间的层输入，以更新所述卷积LSTM神经网络层的直到所述瞬间为止的所述单元状态和所述隐藏状态。7.根据权利要求6所述的系统，其中，除了所述堆栈中的所述第一层之外的每个特定卷积LSTM神经网络层的所述瞬间的所述层输入包括紧接在所述堆栈中的所述特定层之前的层的瞬间的更新后的隐藏状态。8.根据权利要求6或者7中的任一项所述的系统，其中，所述堆栈中的每一层的瞬间的层输入包括所述时间步长的所述表示。9.根据权利要求6-8中的任一项所述的系统，其中，对于所述N个瞬间中的除了所述第
一个瞬间之外的每个瞬间，所述堆栈中的所述第一层的所述瞬间的所述层输入包括前一瞬间的所述堆栈中的最后一层的更新后的隐藏状态。10.根据权利要求9所述的系统，其中，对于所述N个瞬间中的所述第一个瞬间，所述堆栈中的所述第一层的所述瞬间的所述层输入包括前一时间步长的所述堆栈中的最后一层的更新后的隐藏状态。11.根据权利要求6-10中的任一项所述的系统，其中，所述卷积LSTM神经网络进一步被配置为对于每个瞬间并且对于每个卷积LSTM层：对于所述时间步长的所述层的更新后的隐藏状态的每个通道维度：空间地应用一个或多个池化操作，以生成所述通道维度的一个或多个池化输出，使用与所述卷积LSTM层对应的线性层来投影所述池化输出，以生成投影输出；以及在空间上平铺所述投影输出以生成总结张量，其中，所述瞬间的所述堆栈中的每一层的层输入包括前一瞬间的层的总结张量，或如果所述瞬间是所述时间步长的所述第一瞬间，则包括前一时间步长的第N个瞬间的层的总结张量。12.根据权利要求11所述的系统，其中，所述一个或多个池化操作包括最大池化操作、平均池化操作或两者。13.根据任意前述权利要求所述的系统，其中，所述卷积LSTM神经网络被配置为将特征图附加到所述堆栈中的所述卷积LSTM层的卷积算子的输入，所述特征图将输入张量的边界指派到所述卷积算子。14.根据任意前述权利要求所述的系统，其中，所述动作选择输入进一步包括所述时间步长的所述表示。15.根据任意前述权利要求所述的系统，其中，所述神经网络系统进一步包括：编码器神经网络，所述编码器神经网络被配置为在所述多个时间步长中的每一个时间步长处，处理表征所述环境在所述时间步长处的所述状态的所述观察，以生成所述时间步长的所述观察的所述表示。16.根据权利要求15所述的系统，其中，所述观察包括所述环境的图像，并且其中，所述编码器神经网络包括一个或多个卷积层。17.根据任意前述权利要求所述的系统，其中，所述动作选择神经网络包括一个或多个全连接层。18.一个或多个存储指令的计算机可读存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机实现根据权利要求1-17和38中的任一项所述的控制神经网络系统。19.一种用于控制与环境交互的代理的方法，所述方法包括，在多个时间步长中的每一个时间步长处：获得表征所述环境在所述时间步长处的状态的观察的表示；使用卷积长短期记忆LSTM神经网络来处理所述表示，所述LSTM神经网络包括多个卷积LSTM神经网络层，所述多个卷积LSTM神经网络层一个接一个地被布置在堆栈中，其中，...

【专利技术属性】
技术研发人员：迈赫迪，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人