使用目标特定动作值函数的多目标强化学习制造技术

技术编号：34944281 阅读：14 留言：0更新日期：2022-09-17 12:19

提供了一种用于通过强化学习来训练神经网络系统的方法，该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合，每个奖励与多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定用于多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值，该估计回报将由智能体根据先前策略响应于给定状态执行给定动作而产生。该方法还包括基于用于多个目标的动作值函数的组合来确定更新的策略。函数的组合来确定更新的策略。函数的组合来确定更新的策略。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用目标特定动作值函数的多目标强化学习

技术介绍

[0001]本说明书涉及强化学习。
[0002]在强化学习系统中，智能体通过执行动作与环境进行交互的，所述动作是强化学习系统响应于接收到表征环境的当前状态的观测而选择的。
[0003]一些强化学习系统响应于接收到给定的观测根据神经网络的输出来选择智能体将要执行的动作。
[0004]神经网络是机器学习模型，所述机器学习模型对于接收的输入使用非线性单元的一个或多个层来预测输出。一些神经网络是除输出层以外还包括一个或多个隐藏层的深度神经网络。在网络中，每个隐藏层的输出被用作下一个层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入产生输出。

技术实现思路

[0005]本说明书一般描述用于训练强化学习系统的方法，该系统选择要由与环境交互的强化学习智能体执行的动作。这些方法可以用于训练具有多个潜在冲突目标的强化学习系统。
[0006]在一个方面，提供了一种用于通过强化学习来训练神经网络系统的方法，该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于该状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合，每个奖励与所述多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定所述多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值，该估计回报

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过强化学习来训练神经网络系统的方法，所述神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作，所述方法包括：获得一个或多个轨迹的集合，每个轨迹包括环境的状态、响应于所述状态根据先前策略由所述智能体应用于所述环境的动作、以及用于所述动作的奖励集合，每个奖励与所述多个目标中的对应目标相关；基于一个或多个轨迹的所述集合来确定所述多个目标中的每个目标的动作值函数，每个动作值函数确定表示根据所述对应目标的估计回报的动作值，所述估计回报将由所述智能体根据所述先前策略响应于给定状态执行给定动作而产生；以及基于所述多个目标的所述动作值函数的组合来确定更新的策略。2.根据任一项前述权利要求所述的方法，其中，确定更新的策略包括：确定所述多个目标中的每个目标的目标特定策略，每个目标特定策略是基于所述对应目标的所述对应动作值函数来确定；以及通过将所述更新的策略的策略参数集合拟合到所述目标特定策略的组合来确定所述更新的策略。3.根据权利要求2所述的方法，其中，将所述更新的策略的所述策略参数集合拟合到目标特定策略的所述组合包括确定使所述更新的策略与所述目标特定策略的所述组合之间的差异最小化的所述策略参数集合。4.根据权利要求2或权利要求3所述的方法，其中，所述更新的策略的所述策略参数集合被约束，使得所述更新的策略与所述先前策略之间的差异不能超过信任区阈值。5.根据权利要求2
‑
4中任一项所述的方法，其中，确定每个目标的目标特定策略包括确定所述目标特定策略的目标特定策略参数，所述目标特定策略参数相对于所述先前策略根据所述对应目标的动作值函数增加预期回报。6.根据权利要求5所述的方法，其中，确定每个目标的所述目标特定策略包括：受所述目标特定策略不能够与所述先前策略差异多于对应差异阈值的约束，相对于所述先前策略根据所述对应目标的动作值函数确定使所述预期回报最大化的所述目标特定策略的目标特定策略参数。7.根据权利要求6所述的方法，其中，所述对应差异阈值表示所述对应目标对所述更新的策略的相对贡献。8.根据权利要求2
‑
7中任一项所述的方法，其中，所述目标特定策略是非参数策略。9.根据权利要求2
‑
8中任一项所述的方法，其中，每个目标特定策略q
k
(a|s)根据所述目标特定策略的目标的经缩放的动作值函数来确定，其中，所述经缩放的动作值函数由取决于对所述目标的偏好的值来缩放。10.根据权利要求9在从属于权利要求6时所述的方法，其中，取决于对所述目标的偏好的所述值取决于所述目标的所述差异阈值。11.根据权利要求8
‑
10中任一项所述的方法，其中，每个目标特定策略q
k
(a|s)通过计算下式来确定：
其中：N是归一化常数；k是所述目标；a是动作；s是...

【专利技术属性】
技术研发人员：阿巴斯，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人