使用神经网络的用于强化学习的动作选择制造技术

技术编号:22758151 阅读:13 留言:0更新日期:2019-12-07 05:17
公开了方法、系统、和装置,包括在计算机存储介质上编码的计算机程序,用于被配置为选择要由与环境交互的代理执行的动作的系统。系统包括管理者神经网络子系统和工作者神经网络子系统。管理者子系统被配置为在多个时间步中的每一个时间步处生成时间步的最终目标向量。工作者子系统被配置为在多个时间步中的每一个时间步处,使用由管理者子系统生成的最终目标向量来为预定动作集中的每个动作生成相应的动作得分。

Action selection for reinforcement learning using neural networks

Methods, systems, and devices are disclosed, including computer programs encoded on a computer storage medium, for systems configured to select actions to be performed by agents interacting with the environment. The system includes manager neural network subsystem and worker neural network subsystem. The manager subsystem is configured to generate the final target vector of the time step at each of the time steps. The worker subsystem is configured to generate corresponding action scores for each action in a predetermined action set at each time step of multiple time steps using the final target vector generated by the manager subsystem.

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的用于强化学习的动作选择
本说明书涉及强化学习。
技术介绍
在强化学习系统中,代理(agent)通过响应于接收到表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。一些强化学习系统根据神经网络的输出来选择由代理响应于接收到给定观察而要执行的动作。神经网络是采用一个或多个非线性单元层来预测对接收输入的输出的机器学习模型。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值根据接收的输入生成输出。
技术实现思路
本说明书总体上描述了一种动作选择系统,其选择要由与环境交互的强化学习代理执行的动作。在第一方面,提供了一种动作选择系统,用于选择要由代理执行的动作,其中代理通过执行来自预定的动作集的动作来与环境交互,系统包括:管理者神经网络子系统,被配置为,在多个时间步中的每一个时间步处:接收环境在时间步处的当前状态的中间表示,将中间表示映射到潜在状态空间中的当前状态的潜在表示,使用目标循环(recurrent)神经网络处理潜在表示,其中目标循环神经网络被配置为接收潜在表示并根据目标循环神经网络的当前隐藏状态处理潜在表示,以生成所述时间步的目标空间中的初始目标向量并更新目标循环神经网络的内部状态,以及池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量,以生成所述时间步的最终目标向量;工作者神经网络子系统,其被配置为在多个时间步中的每一个时间步处:接收环境在时间步处的当前状态的中间表示,将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,将时间步的最终目标向量从目标空间投影到嵌入空间以生成目标嵌入向量,并通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及动作选择子系统,其中动作选择子系统被配置为,在多个时间步中的每一个时间步处:接收表征环境在时间步处的当前状态的观察,从观察生成中间表示,提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,并使用动作得分从预定的动作集中选择要由代理响应于观察执行的动作。在一些实施方式中,选择动作包括选择具有最高动作得分的动作。在一些实施方式中,从观察中生成中间表示包括使用卷积神经网络处理观察。在一些实施方式中,,将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括:使用动作得分循环神经网络处理中间表示,其中动作得分循环神经网络被配置为接收中间表示并根据动作得分循环神经网络的当前隐藏状态处理中间表示,以生成动作嵌入向量并更新动作得分神经网络的隐藏状态。在一些实施方式中,将中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理中间表示。在一些实施方式中,目标空间比嵌入空间具有更高的维度。在一些实施方式中,目标空间的维度比嵌入空间的维度高至少十倍。在一些实施方式中,工作者神经网络子系统已经被训练为生成最大化奖励的时间折扣组合的动作得分,其中每个奖励是作为代理执行所选动作的结果而接收的外部奖励与取决于管理者神经网络子系统生成的目标向量的内在奖励的组合。在一些实施方式中,管理者神经网络子系统已经被训练为生成引起鼓励选择在潜在状态空间中的有利方向上移动代理的动作的动作得分的初始目标向量。在一些实施方式中,目标循环神经网络是扩张的长短期记忆(longshort-termmemory,LSTM)神经网络。在第二方面,提供了一种实施方式扩张的LSTM神经网络的系统,其中扩张的LSTM神经网络被配置为维持被划分为r个子状态的内部状态,其中r是大于1的整数,并且其中扩张的LSTM神经网络被配置为在时间步序列中的每个时间步处:接收时间步的网络输入;从r个子状态中选择子状态;以及使用LSTM神经网络处理所选子状态的当前值和所述时间步的网络输入,以更新所选子状态的当前值以及根据LSTM网络参数集的当前值生成所述时间步的网络输出。在一些实施方式中,扩张的LSTM神经网络还被配置为,对于时间步中的每个时间步:池化时间步的网络输出和达预定数量的先前时间步的网络输出池化,以生成所述时间步的最终的网络输出。在一些实施方式中,池化网络输出包括对网络输出求和。在一些实施方式中,池化网络输出包括对网络输出取平均。在一些实施方式中,池化网络输出包括选择最高的网络输出。在一些实施方式中,时间步序列中的时间步被索引为从序列中的第一时间步的1开始到序列中的最后时间步的T,其中每个子状态被分配范围从1到r的索引,并且其中从r个子状态中选择子状态包括:选择具有等于时间步的索引模r的索引的子状态。在一些实施方式中,LSTM神经网络包括多个LSTM层。在一些实施方式中,使用LSTM神经网络处理所选子状态的当前值和所述时间步的网络输入以更新所选子状态的当前值以及根据LSTM网络参数集的当前值生成所述时间步的网络输出包括:将LSTM神经网络的内部状态设置为所选子状态的当前值,以便在所述时间步处理网络输入。以上方面可以以任何方便的形式实施。例如,各个方面和实施方式可以由可以承载在适当的载体介质上的适当的计算机程序实施,该载体介质可以是有形载体介质(例如磁盘)或无形载体介质(例如通信信号)。各个方面也可以使用可以采用运行计算机程序的可编程计算机的形式的合适的装置来实施。可以实施本说明书中描述的主题的具体实施例,以便实施以下优点中的一个或多个。本说明书中描述的动作选择系统的结构(包括解耦的管理者-工作者系统结构和扩张的LSTM网络中的一个或两个)使得系统能够被有效地训练以执行长时间尺度的信用分配(即,识别许多先前的时间步上的先前的状态和动作对接收到的奖励的影响)。具体地,动作选择系统的结构实现了响应于在给定时间步处接收的奖励而反向传播通过系统的梯度(根据强化学习算法)从而在调整系统的参数时考虑许多先前时间步上的状态和动作。因为动作选择系统的结构促进了长时间尺度的信用分配,所以训练本说明书中描述的动作选择系统可以比训练具有不同结构的其他动作选择系统消耗更少的计算资源(例如,存储器和计算力)。具体地,本说明书中描述的动作选择系统可能比具有不同结构的另一系统需要更少的训练迭代来以某个性能(例如,代理在执行任务时接收的长期时间折扣奖励)执行任务。此外,本说明书中描述的动作选择系统的管理者系统生成工作者系统的方向目标而不是绝对目标。特别地,工作者系统被训练以生成使得管理者系统的潜在状态表示在潜在状态空间中的有利方向上移动而不是被训练成明确地使潜在状态表示在潜在状态空间中接近绝对目标的动作。工作者系统可以生成使得管理者系统的潜在状态表示在潜在状态空间中的特定方向上移动比其可以生成使得潜在状态表示在潜在状态空间中接近绝对目标的动作更有效。因此,通过使用方向性目标而不是绝对目标,本说明书中描述的动作选择系本文档来自技高网...

【技术保护点】
1.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:/n管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到潜在状态空间中当前状态的潜在表示,/n使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新目所述目标循环神经网络的内部状态,以及/n池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,/n将时间步的最终目标向量从目标空间投影到嵌入空间的以生成目标嵌入向量,以及/n通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及/n动作选择子系统,其中所述动作选择子系统被配置为在所述多个时间步中的每一个时间步处:/n接收表征环境在时间步处的当前状态的观察,/n从观察生成中间表示,/n提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,/n提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,以及/n使用动作得分从预定的动作集中选择代理响应于观察要执行的动作。/n...

【技术特征摘要】
【国外来华专利技术】20170224 US 62/463,5321.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:
管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到潜在状态空间中当前状态的潜在表示,
使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新目所述目标循环神经网络的内部状态,以及
池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,
将时间步的最终目标向量从目标空间投影到嵌入空间的以生成目标嵌入向量,以及
通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及
动作选择子系统,其中所述动作选择子系统被配置为在所述多个时间步中的每一个时间步处:
接收表征环境在时间步处的当前状态的观察,
从观察生成中间表示,
提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,
提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,以及
使用动作得分从预定的动作集中选择代理响应于观察要执行的动作。


2.如权利要求1所述的系统,其中选择动作包括选择具有最高动作得分的动作。


3.如权利要求1或2中任一项所述的系统,其中从观察生成中间表示包括使用卷积神经网络处理观察。


4.如权利要求1-3中任一项所述的系统,其中,将所述中间表示映射到所述预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括:
使用动作得分循环神经网络处理所述中间表示,其中所述动作得分循环神经网络被配置为接收所述中间表示并根据动作得分循环神经网络的当前隐藏状态所述处理中间表示以生成动作嵌入向量以及更新动作得分神经网络的隐藏状态。


5.如权利要求1-4中任一项所述的系统,其中将所述中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理所述中间表示。


6.如权利要求1-5中任一项所述的系统,其中,所述目标空间具有比所述嵌入空间更高的维度。


7.如权利要求6所述的系统,其中,所述目标空间的维度比所述嵌入空间的维度高至少十倍。


8.如权利要求1-7中任一项所述的系统,其中,所述工作者神经网络子系统已被训练以生成最大化奖励的时间折扣的组合的动作得分,其中每个奖励是作为所述代理执行所选动作的结果而接收的外部奖励和依赖于由管理者神经网络子系统生成的目标向量的内在奖励的组合。
...

【专利技术属性】
技术研发人员:S奥新德罗K卡夫库格鲁A维兹尼韦茨
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1