Methods, systems, and devices are disclosed, including computer programs encoded on a computer storage medium, for systems configured to select actions to be performed by agents interacting with the environment. The system includes manager neural network subsystem and worker neural network subsystem. The manager subsystem is configured to generate the final target vector of the time step at each of the time steps. The worker subsystem is configured to generate corresponding action scores for each action in a predetermined action set at each time step of multiple time steps using the final target vector generated by the manager subsystem.
【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的用于强化学习的动作选择
本说明书涉及强化学习。
技术介绍
在强化学习系统中,代理(agent)通过响应于接收到表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。一些强化学习系统根据神经网络的输出来选择由代理响应于接收到给定观察而要执行的动作。神经网络是采用一个或多个非线性单元层来预测对接收输入的输出的机器学习模型。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值根据接收的输入生成输出。
技术实现思路
本说明书总体上描述了一种动作选择系统,其选择要由与环境交互的强化学习代理执行的动作。在第一方面,提供了一种动作选择系统,用于选择要由代理执行的动作,其中代理通过执行来自预定的动作集的动作来与环境交互,系统包括:管理者神经网络子系统,被配置为,在多个时间步中的每一个时间步处:接收环境在时间步处的当前状态的中间表示,将中间表示映射到潜在状态空间中的当前状态的潜在表示,使用目标循环(recurrent)神经网络处理潜在表示,其中目标循环神经网络被配置为接收潜在表示并根据目标循环神经网络的当前隐藏状态处理潜在表示,以生成所述时间步的目标空间中的初始目标向量并更新目标循环神经网络的内部状态,以及池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量,以生成所述时间步的最终目标向量;工作者神经网络子系统,其被配置为在多个时间步中的每一 ...
【技术保护点】
1.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:/n管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到潜在状态空间中当前状态的潜在表示,/n使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新目所述目标循环神经网络的内部状态,以及/n池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,/n将时间步的最终目标向量从目标空间投影到嵌入空间的以生成目标嵌入向量,以及/n通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及/n动作选择子系统,其中所述动作选择子系统被配置为 ...
【技术特征摘要】
【国外来华专利技术】20170224 US 62/463,5321.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:
管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到潜在状态空间中当前状态的潜在表示,
使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新目所述目标循环神经网络的内部状态,以及
池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,
将时间步的最终目标向量从目标空间投影到嵌入空间的以生成目标嵌入向量,以及
通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及
动作选择子系统,其中所述动作选择子系统被配置为在所述多个时间步中的每一个时间步处:
接收表征环境在时间步处的当前状态的观察,
从观察生成中间表示,
提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,
提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,以及
使用动作得分从预定的动作集中选择代理响应于观察要执行的动作。
2.如权利要求1所述的系统,其中选择动作包括选择具有最高动作得分的动作。
3.如权利要求1或2中任一项所述的系统,其中从观察生成中间表示包括使用卷积神经网络处理观察。
4.如权利要求1-3中任一项所述的系统,其中,将所述中间表示映射到所述预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括:
使用动作得分循环神经网络处理所述中间表示,其中所述动作得分循环神经网络被配置为接收所述中间表示并根据动作得分循环神经网络的当前隐藏状态所述处理中间表示以生成动作嵌入向量以及更新动作得分神经网络的隐藏状态。
5.如权利要求1-4中任一项所述的系统,其中将所述中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理所述中间表示。
6.如权利要求1-5中任一项所述的系统,其中,所述目标空间具有比所述嵌入空间更高的维度。
7.如权利要求6所述的系统,其中,所述目标空间的维度比所述嵌入空间的维度高至少十倍。
8.如权利要求1-7中任一项所述的系统,其中,所述工作者神经网络子系统已被训练以生成最大化奖励的时间折扣的组合的动作得分,其中每个奖励是作为所述代理执行所选动作的结果而接收的外部奖励和依赖于由管理者神经网络子系统生成的目标向量的内在奖励的组合。
...
【专利技术属性】
技术研发人员:S奥新德罗,K卡夫库格鲁,A维兹尼韦茨,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。