强化学习系统训练返回函数的元梯度更新技术方案

技术编号：27192833 阅读：29 留言：0更新日期：2021-01-31 11:37

用于强化学习的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。本文所描述的实施例应用元学习(特别是元梯度强化学习)来学习最优返回函数G，从而改善系统的训练。这提供了训练强化学习系统的更有效和高效的手段，因为系统能够通过训练返回函数G更快地收敛到一个或多个策略参数θ的最优集。特别地，使返回函数G取决于一个或多个策略参数θ，并且使用相对于一个或多个返回参数η被微分的元目标函数J

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】强化学习系统训练返回函数的元梯度更新

[0001]本说明书涉及强化学习(reinforcement learning)。

技术介绍

[0002]在强化学习系统中，代理(agent)通过执行由强化学习系统响应于接收到表征环境当前状态的观测数据(observation)而选择的动作来与环境交互。
[0003]一些强化学习系统响应于接收到给定的观测数据，根据神经网络的输出选择要由代理执行的动作。
[0004]神经网络是机器学习模型，其采用非线性单元的一个或多个层来预测对接收到的输入的输出。一些神经网络是深度神经网络，其除了输出层之外，还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一个层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书总体上描述了一种强化学习系统，该系统选择要由与环境交互的强化学习代理执行的动作。为了使代理与环境交互，系统接收表征环境当前状态的数据，并响应于接收到的数据选择要由代理执行的动作。表征环境状态的数据在本说明书中被称为观测数据。
[0006]在一些实现方式中，环境是模拟(simulated)环境，并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理是通过运动模拟航行的模拟交通工具(vehicle)。在这些实现方式中，动作可以是控制模拟...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种强化学习系统，包括一个或多个处理器，所述一个或多个处理器被配置为：从强化学习神经网络检索多个经验，所述强化学习神经网络被配置为控制与环境交互的代理执行任务，以尝试基于所述强化学习神经网络的一个或多个策略参数来实现指定的结果，每个经验包括表征环境状态的观测数据、所述代理响应于所述观测数据而执行的动作以及响应于所述动作而接收到的奖励；使用基于奖励计算返回的返回函数、基于第一经验集更新所述强化学习神经网络的一个或多个策略参数；以及基于一个或多个更新的策略参数和第二经验集，更新所述返回函数的一个或多个返回参数，其中所述一个或多个返回参数使用相对于所述一个或多个返回参数被微分的元目标函数经由梯度上升或下降方法来更新，其中所述元目标函数取决于所述一个或多个策略参数。2.根据权利要求1所述的强化学习系统，其中，更新所述一个或多个返回参数利用所述一个或多个更新的策略参数相对于所述一个或多个返回参数的微分。3.根据权利要求1所述的强化学习系统，其中，所述一个或多个处理器还被配置为迭代地：使用所述一个或多个更新的策略参数和所述一个或多个更新的返回参数，检索由所述强化神经网络生成的更新的经验；使用所述一个或多个更新的返回参数、基于第一更新经验集，进一步更新所述一个或多个策略参数；以及经由梯度上升或下降方法、基于进一步更新的策略参数和第二更新经验集，进一步更新所述一个或多个返回参数，直到达到结束条件。4.根据权利要求1所述的强化学习系统，其中，更新所述一个或多个返回参数包括：应用进一步的返回函数作为所述元目标函数的部分，并且根据当所述进一步的返回函数被应用于所述第二经验集时的返回来评估更新的策略。5.根据权利要求1所述的强化学习系统，其中，对所述一个或多个策略参数的更新应用以所述一个或多个返回参数为条件的策略和值函数中的一个或多个。6.根据权利要求5所述的强化学习系统，其中，以所述一个或多个返回参数为条件是经由对所述一个或多个返回参数的嵌入来进行的。7.根据权利要求1所述的强化学习系统，其中，所述一个或多个返回参数包括所述返回函数的折扣因子和所述返回函数的自举因子。8.根据权利要求1所述的强化学习系统，其中，所述一个或多个处理器还被配置为：基于所述第二经验集更新所述强化学习神经网络的一个或多个策略参数；以及基于所述一个或多个更新的策略参数和所述第一经验集，更新所述返回函数的一个或多个返回参数，其中所述一个或多个返回参数经由梯度上升或下降方法来更新。9.根据权利要求1所述的强化学习系统，其中，被微分的元目标函数为：
其中：η是所述一个或多个返回参数；以及J
′
(τ
′
,θ
′
,η
′
)是以所述第二经验集τ
′
、所述一个或多个更新的策略参数θ
′
和形成所述元目标函数的部分的进一步的返回函数的一个或多个进一步的返回参数η
′
为条件的所述元目标函数。10.根据权利要求9所述的强化学习系统，其中，系统被配置为基于所述更新的策略参数θ
′
相对于所述返回参数η的微分dθ
′
/...

【专利技术属性】
技术研发人员：Z徐，HP范哈塞尔特，D希尔沃，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人