使用管理者和工作者神经网络的用于强化学习的动作选择制造技术

技术编号:38930695 阅读:16 留言:0更新日期:2023-09-25 09:35
提供了一种用于选择将由代理执行的动作的系统,包括:工作者神经网络系统,其被配置为在多个时间步中的每个时间步处:接收目标表示,所述目标表示定义作为由代理在所述环境中执行的动作的结果而要完成的目标,其中所述目标表示至少部分地基于所述时间步和/或一个或多个先前时间步的环境状态;和至少部分地基于所述目标表示和所述时间步的环境状态,为所述动作集中的每个动作生成相应的动作得分;以及动作选择子系统,被配置为在所述多个时间步中的每个时间步处:使用所述动作得分从所述动作集中选择要由所述代理在所述时间步执行的动作。作。作。

【技术实现步骤摘要】
使用管理者和工作者神经网络的用于强化学习的动作选择
[0001]本申请是申请日为2018年2月19日、申请号为201880013632.8、专利技术名称为“使用神经网络的用于强化学习的动作选择”的中国专利技术专利申请的分案申请。


[0002]本说明书涉及强化学习。

技术介绍

[0003]在强化学习系统中,代理(agent)通过响应于接收到表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。
[0004]一些强化学习系统根据神经网络的输出来选择由代理响应于接收到给定观察而要执行的动作。
[0005]神经网络是采用一个或多个非线性单元层来预测对接收输入的输出的机器学习模型。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值根据接收的输入生成输出。

技术实现思路

[0006]本说明书总体上描述了一种动作选择系统,其选择要由与环境交互的强化学习代理执行的动作。
[0007]在第一方面,提供了一种动作选择系统,用于选择要由代理执行的动作,其中代理通过执行来自预定的动作集的动作来与环境交互,系统包括:管理者神经网络子系统,被配置为,在多个时间步中的每一个时间步处:接收环境在时间步处的当前状态的中间表示,将中间表示映射到潜在状态空间中的当前状态的潜在表示,使用目标循环(recurrent)神经网络处理潜在表示,其中目标循环神经网络被配置为接收潜在表示并根据目标循环神经网络的当前隐藏状态处理潜在表示,以生成所述时间步的目标空间中的初始目标向量并更新目标循环神经网络的内部状态,以及池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量,以生成所述时间步的最终目标向量;工作者神经网络子系统,其被配置为在多个时间步中的每一个时间步处:接收环境在时间步处的当前状态的中间表示,将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,将时间步的最终目标向量从目标空间投影到嵌入空间以生成目标嵌入向量,并通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及动作选择子系统,其中动作选择子系统被配置为,在多个时间步中的每一个时间步处:接收表征环境在时间步处的当前状态的观察,从观察生成中间表示,提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,并使用动作得分从预定的动作集中选择要由代理响应于观察执行的动作。
[0008]在一些实施方式中,选择动作包括选择具有最高动作得分的动作。
[0009]在一些实施方式中,从观察中生成中间表示包括使用卷积神经网络处理观察。
[0010]在一些实施方式中,,将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括:使用动作得分循环神经网络处理中间表示,其中动作得分循环神经网络被配置为接收中间表示并根据动作得分循环神经网络的当前隐藏状态处理中间表示,以生成动作嵌入向量并更新动作得分神经网络的隐藏状态。
[0011]在一些实施方式中,将中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理中间表示。
[0012]在一些实施方式中,目标空间比嵌入空间具有更高的维度。
[0013]在一些实施方式中,目标空间的维度比嵌入空间的维度高至少十倍。
[0014]在一些实施方式中,工作者神经网络子系统已经被训练为生成最大化奖励的时间折扣组合的动作得分,其中每个奖励是作为代理执行所选动作的结果而接收的外部奖励与取决于管理者神经网络子系统生成的目标向量的内在奖励的组合。
[0015]在一些实施方式中,管理者神经网络子系统已经被训练为生成引起鼓励选择在潜在状态空间中的有利方向上移动代理的动作的动作得分的初始目标向量。
[0016]在一些实施方式中,目标循环神经网络是扩张的长短期记忆(long short

term memory,LSTM)神经网络。
[0017]在第二方面,提供了一种实施方式扩张的LSTM神经网络的系统,其中扩张的LSTM神经网络被配置为维持被划分为r个子状态的内部状态,其中r是大于1的整数,并且其中扩张的LSTM神经网络被配置为在时间步序列中的每个时间步处:接收时间步的网络输入;从r个子状态中选择子状态;以及使用LSTM神经网络处理所选子状态的当前值和所述时间步的网络输入,以更新所选子状态的当前值以及根据LSTM网络参数集的当前值生成所述时间步的网络输出。
[0018]在一些实施方式中,扩张的LSTM神经网络还被配置为,对于时间步中的每个时间步:池化时间步的网络输出和达预定数量的先前时间步的网络输出池化,以生成所述时间步的最终的网络输出。
[0019]在一些实施方式中,池化网络输出包括对网络输出求和。
[0020]在一些实施方式中,池化网络输出包括对网络输出取平均。
[0021]在一些实施方式中,池化网络输出包括选择最高的网络输出。
[0022]在一些实施方式中,时间步序列中的时间步被索引为从序列中的第一时间步的1开始到序列中的最后时间步的T,其中每个子状态被分配范围从1到r的索引,并且其中从r个子状态中选择子状态包括:选择具有等于时间步的索引模r的索引的子状态。
[0023]在一些实施方式中,LSTM神经网络包括多个LSTM层。
[0024]在一些实施方式中,使用LSTM神经网络处理所选子状态的当前值和所述时间步的网络输入以更新所选子状态的当前值以及根据LSTM网络参数集的当前值生成所述时间步的网络输出包括:将LSTM神经网络的内部状态设置为所选子状态的当前值,以便在所述时间步处理网络输入。
[0025]在又一个方面,提供了一种用于选择将由代理执行的动作的系统,所述代理通过执行来自动作集的动作来与环境交互,所述系统包括一个或多个计算机以及通信地耦合到
所述一个或多个计算机的一个或多个存储设备,其中所述一个或多个存储设备存储指令,所述指令当被所述一个或多个计算机执行时,使得所述一个或多个计算机实现:工作者神经网络系统,其被配置为在多个时间步中的每个时间步处:接收目标表示,所述目标表示定义作为由代理在所述环境中执行的动作的结果而要完成的目标,其中所述目标表示至少部分地基于所述时间步和/或一个或多个先前时间步的环境状态;和至少部分地基于所述目标表示和所述时间步的环境状态,为所述动作集中的每个动作生成相应的动作得分;以及动作选择子系统,被配置为在所述多个时间步中的每个时间步处:使用所述动作得分从所述动作集中选择要由所述代理在所述时间步执行的动作。
[0026]在又一个方面,提供了一种由一个或多个计算机执行的方法,用于选择将由代理执行的动作,所述代理通过执行来自动作集的动作来与环境交互,所述方法包括,在多个时间步中的每个时间步处:生成目标表示,所述目标表示定义作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于选择将由代理执行的动作的系统,所述代理通过执行来自动作集的动作来与环境交互,所述系统包括一个或多个计算机以及通信地耦合到所述一个或多个计算机的一个或多个存储设备,其中所述一个或多个存储设备存储指令,所述指令当被所述一个或多个计算机执行时,使得所述一个或多个计算机实现:工作者神经网络系统,其被配置为在多个时间步中的每个时间步处:接收目标表示,所述目标表示定义作为由代理在所述环境中执行的动作的结果而要完成的目标,其中所述目标表示至少部分地基于所述时间步和/或一个或多个先前时间步的环境状态;和至少部分地基于所述目标表示和所述时间步的环境状态,为所述动作集中的每个动作生成相应的动作得分;和动作选择子系统,被配置为在所述多个时间步中的每个时间步处:使用所述动作得分从所述动作集中选择要由所述代理在所述时间步执行的动作。2.根据权利要求1所述的系统,还包括具有编码神经网络参数集的编码神经网络系统,所述编码神经网络系统被配置为:接收表征所述环境的当前状态的观察;根据所述编码神经网络参数集的当前值处理所述观察,以生成所述观察的中间表示;和输出所述中间表示。3.根据权利要求2所述的系统,其中所述编码神经网络包括卷积神经网络。4.根据权利要求2所述的系统,其中,所述工作者神经网络系统被配置为接收所述中间表示,并且其中,由所述工作者神经网络系统对相应动作得分的生成至少部分地基于所述中间表示。5.根据权利要求4所述的系统,其中所述工作者神经网络系统包括具有投影引擎参数集的投影引擎,所述投影引擎被配置为:接收所述目标表示;和根据所述投影引擎参数集的当前值来处理所述目标表示,以生成目标嵌入向量;和输出所述目标嵌入向量,其中,对所述动作集中的每个动作的相应动作得分的生成至少部分地基于所述目标嵌入向量。6.根据权利要求5所述的系统,其中,所述工作者神经网络系统被配置为将所述中间表示映射到动作集中的每个动作的相应动作嵌入向量。7.根据权利要求6所述的系统,其中所述工作者神经系统包括调制引擎,所述调制引擎被配置为:接收所述相应动作嵌入向量;接收所述目标嵌入向量;基于所述动作集中的每个动作的相应动作嵌入向量和所述目标嵌入向量,生成动作的相应动作得分。8.根据权利要求7所述的系统,其中生成动作的相应动作得分包括:根据所述目标嵌入向量修改所述动作的动作嵌入向量。
9.根据权利要求7所述的系统,其中生成动作的相应动作得分包括:组合所述相应动作嵌入向量和所述目标嵌入向量。10.根据权利要求1所述的系统,还包括管理者神经网络系统,所述管理者神经网络系统被配置为在多个时间步中的每个时间步处:在潜在空间中生成所述时间步的环境的当前状态的潜在表示;和至少使用所述时间步的环境的当前状态的潜在表示来生成所述时间步的最终目标表示。11.根据权利要求10所述的系统,其中所述管理者神经网络系统被配置为从编码神经网络接收表征环境的当前状态的观察...

【专利技术属性】
技术研发人员:S
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1