使用目标特定动作值函数的多目标强化学习制造技术

技术编号:34944281 阅读:14 留言:0更新日期:2022-09-17 12:19
提供了一种用于通过强化学习来训练神经网络系统的方法,该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合,每个奖励与多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定用于多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值,该估计回报将由智能体根据先前策略响应于给定状态执行给定动作而产生。该方法还包括基于用于多个目标的动作值函数的组合来确定更新的策略。函数的组合来确定更新的策略。函数的组合来确定更新的策略。

【技术实现步骤摘要】
【国外来华专利技术】使用目标特定动作值函数的多目标强化学习

技术介绍

[0001]本说明书涉及强化学习。
[0002]在强化学习系统中,智能体通过执行动作与环境进行交互的,所述动作是强化学习系统响应于接收到表征环境的当前状态的观测而选择的。
[0003]一些强化学习系统响应于接收到给定的观测根据神经网络的输出来选择智能体将要执行的动作。
[0004]神经网络是机器学习模型,所述机器学习模型对于接收的输入使用非线性单元的一个或多个层来预测输出。一些神经网络是除输出层以外还包括一个或多个隐藏层的深度神经网络。在网络中,每个隐藏层的输出被用作下一个层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入产生输出。

技术实现思路

[0005]本说明书一般描述用于训练强化学习系统的方法,该系统选择要由与环境交互的强化学习智能体执行的动作。这些方法可以用于训练具有多个潜在冲突目标的强化学习系统。
[0006]在一个方面,提供了一种用于通过强化学习来训练神经网络系统的方法,该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于该状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合,每个奖励与所述多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定所述多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值,该估计回报将由智能体根据先前策略响应于给定状态执行给定动作而产生。该方法还包括基于所述多个目标的动作值函数的组合来确定更新的策略。
[0007]通过确定每个目标的单独动作值函数,本文描述的方法能够在强化学习期间有效地平衡竞争目标。当组合单独目标的动作值时,动作值函数克服了与确定最佳权重相关联的问题。此外,单独动作值函数提供关于每个目标的奖励的大小的尺度不变性,从而避免一个或多个目标通过其奖励的相对大小对学习占优。
[0008]一个或多个轨迹的所述集合可以从存储获得(即,可以预先计算),或者可以通过将智能体应用于一个或多个状态来获得。一个或多个轨迹的所述集合可以包括多个轨迹,从而允许批量学习。或者,作为在线学习的一部分,可以每个更新提供一个轨迹。
[0009]应当注意,虽然本文讨论术语“奖励”,但是这些奖励可能是负的。在奖励为负的情况下,这些奖励可以被等同地视为成本。在这种情况下,强化学习任务的总体目标将是最小化预期成本(而不是最大化预期奖励或回报)。
[0010]在一些实施方式中,每个动作值函数针对先前策略跨潜在状态

动作对的范围提供多个目标中的对应目标的动作值的分布。每个动作值函数可以在响应于给定状态选取给
定动作时输出表示对应目标的预期累积折扣奖励的动作值。此累计折扣奖励可以在根据先前策略实现的多个后续行动上计算。每个目标的动作值函数可以被认为是目标特定动作值函数。
[0011]在一些实施方式中,确定更新的策略包括确定多个目标中的每个目标的目标特定策略。可以基于对应目标的对应动作值函数来确定每个目标特定策略。该方法还可以包括通过将更新的策略的策略参数集合拟合到目标特定策略的组合来确定更新的策略。目标特定策略的组合可以是目标特定策略的总和。目标特定策略在本文也称为动作分布(不要与动作值函数混淆),因为它们可以提供动作在状态上的概率分布。根据上述情况,可以通过经由已经从动作值函数得出的目标特定策略的组合来组合动作值函数而确定更新的策略。该策略然后拟合到目标特定策略的组合。
[0012]通过经由目标特定策略的组合来组合目标,本文描述的方法组合了分布空间中的目标。这与在奖励空间中组合目标(例如,通过将多目标奖励向量转换为单个标量奖励)形成对比。通过组合分布空间中的目标,因此组合对于奖励的尺度是不变的。每个目标对更新的策略的相对贡献可以通过利用对确定目标特定策略的约束来缩放。
[0013]在一些实施方式中,将更新的策略的策略参数集合拟合到目标特定策略的组合包括确定最小化更新的策略和目标特定策略的组合之间的差异的策略参数集合。
[0014]可以约束更新的策略和目标特定策略的组合之间的差异的最小化,使得更新的策略和先前策略之间的差异不超过信任区阈值。换句话说,可以约束用于更新的策略的策略参数集合,使得更新的策略和先前策略之间的差异不能超过信任区阈值。信任区阈值可以被认为是限制该策略的整体改变以提高学习稳定性的超参数。
[0015]本文讨论的策略之间的差异可以通过使用Kullback

Leibler(KL)散度或分布之间差异的任何其他适当度量来计算。
[0016]在一些实施方式中,确定用于每个目标的目标特定策略包括确定用于目标特定策略的目标特定策略参数,该目标特定策略参数相对于先前策略根据用于对应目标的动作值函数将增加预期回报。
[0017]在一些实施方式中,确定用于每个目标的目标特定策略包括受目标特定策略可能与先前策略不相差大于对应差异阈值的约束,相对于先前策略根据用于对应目标的动作值函数确定使预期回报最大化的用于目标特定策略的目标特定策略参数。可以基于Kullback

Leibler散度或分布之间差异的任何其他适当度量来确定目标特定策略与先前策略之间的差异。
[0018]因此,每个目标特定策略都可以受它与先前策略不相差超过对应差异阈值的约束来确定。可以认为对应差异阈值表示对应目标对更新的策略的相对贡献。因此,可以通过调整对应差异阈值来调整每个目标对更新的策略的相对贡献。也就是说,每个目标之间的相对权重以每个目标对策略更新的影响的约束的形式被编码。
[0019]在一些实施方式中,目标特定策略是非参数策略。这降低了关于确定目标特定策略的计算复杂度,同时符合关于相应差异阈值的约束。这是因为可以针对每个状态以封闭形式求解约束优化。
[0020]每个目标特定策略q
k
(a|s)可以根据目标特定策略的目标的经缩放的动作值函数来确定,其中,经缩放的动作值函数通过取决于对目标的偏好的值来缩放。取决于对目标的
偏好的值可以取决于用于目标的差异阈值。取决于对目标的偏好的值可以是取决于差异阈值的温度参数η
k

[0021]例如,每个目标特定策略q
k
(a|s)可以通过计算下式来确定:
[0022][0023]其中:
[0024]N是归一化常数;
[0025]k是目标;
[0026]a是动作;
[0027]s是状态;
[0028]π
old
(a|s)是先前策略;
[0029]Q
k
(s,a)是用于目标的动作值函数;以及
[0030]η
k
是温度参数。
[0031]针对每个目标k,温度参数η
k...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过强化学习来训练神经网络系统的方法,所述神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作,所述方法包括:获得一个或多个轨迹的集合,每个轨迹包括环境的状态、响应于所述状态根据先前策略由所述智能体应用于所述环境的动作、以及用于所述动作的奖励集合,每个奖励与所述多个目标中的对应目标相关;基于一个或多个轨迹的所述集合来确定所述多个目标中的每个目标的动作值函数,每个动作值函数确定表示根据所述对应目标的估计回报的动作值,所述估计回报将由所述智能体根据所述先前策略响应于给定状态执行给定动作而产生;以及基于所述多个目标的所述动作值函数的组合来确定更新的策略。2.根据任一项前述权利要求所述的方法,其中,确定更新的策略包括:确定所述多个目标中的每个目标的目标特定策略,每个目标特定策略是基于所述对应目标的所述对应动作值函数来确定;以及通过将所述更新的策略的策略参数集合拟合到所述目标特定策略的组合来确定所述更新的策略。3.根据权利要求2所述的方法,其中,将所述更新的策略的所述策略参数集合拟合到目标特定策略的所述组合包括确定使所述更新的策略与所述目标特定策略的所述组合之间的差异最小化的所述策略参数集合。4.根据权利要求2或权利要求3所述的方法,其中,所述更新的策略的所述策略参数集合被约束,使得所述更新的策略与所述先前策略之间的差异不能超过信任区阈值。5.根据权利要求2

4中任一项所述的方法,其中,确定每个目标的目标特定策略包括确定所述目标特定策略的目标特定策略参数,所述目标特定策略参数相对于所述先前策略根据所述对应目标的动作值函数增加预期回报。6.根据权利要求5所述的方法,其中,确定每个目标的所述目标特定策略包括:受所述目标特定策略不能够与所述先前策略差异多于对应差异阈值的约束,相对于所述先前策略根据所述对应目标的动作值函数确定使所述预期回报最大化的所述目标特定策略的目标特定策略参数。7.根据权利要求6所述的方法,其中,所述对应差异阈值表示所述对应目标对所述更新的策略的相对贡献。8.根据权利要求2

7中任一项所述的方法,其中,所述目标特定策略是非参数策略。9.根据权利要求2

8中任一项所述的方法,其中,每个目标特定策略q
k
(a|s)根据所述目标特定策略的目标的经缩放的动作值函数来确定,其中,所述经缩放的动作值函数由取决于对所述目标的偏好的值来缩放。10.根据权利要求9在从属于权利要求6时所述的方法,其中,取决于对所述目标的偏好的所述值取决于所述目标的所述差异阈值。11.根据权利要求8

10中任一项所述的方法,其中,每个目标特定策略q
k
(a|s)通过计算下式来确定:
其中:N是归一化常数;k是所述目标;a是动作;s是...

【专利技术属性】
技术研发人员:阿巴斯
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1