用于支持策略学习的方法和系统技术方案

技术编号：36155744 阅读：16 留言：0更新日期：2022-12-31 20:02

本发明专利技术描述了用于机器人的智能体中的支持策略学习的方法和系统。所述方法包括：学习主要策略的广义值函数(general value function，GVF)，其中，所述GVF表示所述智能体在环境的给定状态下执行所述主要策略的未来性能；总控策略根据从所述广义值函数中得到的预测累积成功值选择动作；当所述预测累积成功值是可接受值时，所述总控策略选择的所述动作是执行所述主要策略；当所述预测累积成功值不是可接受值时，所述总控策略选择的所述动作使得学习支持策略；所述支持策略生成要执行的支持动作，其中，所述支持动作使得所述机器人从所述预测累积成功值具有可接受值的新状态转移到新状态。移到新状态。移到新状态。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于支持策略学习的方法和系统

[0001]本专利技术涉及配置有强化学习(reinforcement learning，RL)智能体的机器人中的支持策略学习的方法，尤其涉及用于提高现有策略的通用性和使用范围的支持策略学习。

技术介绍

[0002]目前，存在解决特定任务的现有算法或解决方案的机器人控制系统可能无法将现有解决方案推广为能够在相同环境中解决更多类似任务的解决方案。
[0003]现有解决方案可以包括使用强化学习(reinforcement learning，RL)实现的机器学习解决方案。在人工智能(artificial intelligence，AI)的背景下，强化学习历来通过动态编程实现，动态编程使用一系列奖励来学习函数。通常情况下，机器人中执行强化学习(reinforcement learning，RL)算法的智能体(以下称为RL智能体)擅长通过探索环境、收集状态、根据策略在环境中执行动作、接收环境中状态和对应奖励的变化以及改进策略以最大限度地提高其奖励回报，从零开始(tabular rasa)解决任务。然而，随着问题复杂性的增加，就像在解决方案广义化的情况下一样，RL智能体可能会开始失效，而且变得越来越难以训练。
[0004]一些挑战可能包括以下方面。大的或无限的状态和动作空间是复杂问题环境的特征，RL智能体可能很难探索。抽样效率低下也可能是一项挑战，其中，由于采样可能存在的状态的效率低，因此训练RL智能体可能比较耗时。稀疏奖励可能是一项挑战，其中，采样不到足够多的不同奖励来改进RL智能体...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由机器人中的控制所述机器人与环境交互的智能体执行的方法，其特征在于，所述方法包括：接收主要策略，其中，所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作，所述智能体执行所述主要策略的性能由累积成功值度量；使用策略评估算法学习所述主要策略的广义值函数，其中，所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值，所述给定状态在整个状态空间中；获取总控策略，其中，所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作；当所述预测累积成功值是可接受值时，所述总控策略选择的所述动作使得执行所述主要策略，以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作；当所述预测累积成功值不是可接受值时，所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略，其中，所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作，所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的新状态。2.根据权利要求1所述的方法，其特征在于，所述使用策略评估算法学习广义值函数包括：执行多次迭代，其中，每次迭代包括：根据所述状态空间中的当前状态，采样所述主要策略生成的动作，其中，所述动作由所述智能体执行，以使得所述机器人执行所述动作；在执行所述动作之后，在所述状态空间中采样下一个状态；在执行所述动作之后，通过从所述当前状态转移到所述下一个状态计算累积量，其中，所述累积量表示所述智能体在所述当前状态下的成功值；至少存储与所述当前状态、所述动作和所述下一个状态相关联的累积量；更新所述广义值函数以预测所述累积成功值。3.根据权利要求2所述的方法，其特征在于，所述广义值函数使用时间差分学习或蒙特卡罗估计来更新。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述支持策略根据奖励学习，其中，所述奖励基于从所述广义值函数中得到的所述预测累积成功值，所述广义值函数考虑从所述状态空间中采样的多个状态。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取总控策略包括：确定阈值；所述总控策略被定义用来在所述广义值函数输出的成功值大于所述阈值时选择执行所述主要策略，还被定义用来在所述广义值函数输出的成功值不大于阈值时选择学习所述支持策略。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取总控策略包括：在学习所述总控策略的同时学习所述支持策略，其中，所述总控策略根据总控策略奖励来学习，所述支持策略根据支持策略奖励来学习，所述总控策略奖励和所述支持策略奖励都基于从所述广义值函数中得到的所述预测累积成功值。
7.根据权利要求6所述的方法，其特征在于，所述广义值函数、所述总控策略和所述支持策略同时学习。8.一种机器人中的处理单元，其特征在于，所述处理单元执行机器可执行指令以实现智能体来控制所述机器人与环境交互，所述指令使得所述智能体执行以下操作：接收主要策略，其中，所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作，所述智能体执行所述主要策略的性能由累积成功值度量；使用策略评估算法学习所述主要策略的广义值函数，其中，所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值，所述给定状态在整个状态空间中；获取总控策略，其中，所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作；当所述预测累积成功值是可接受值时，所述总控策略选择的所述动作使得执行所述主要策略，以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作；当所述预测累积成功值不是可接受值时，所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略，其中，所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作，所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的新状态。9.根据权利要求8所述的处理单元，其特征在于，所述指令使得所述智能体通过以下方式学习所述广义值函数：执行多次迭代，其中，每次迭代包括：根据所述状态空间中的当前状态，采样所述主要策略生成的动作，其中，所述动作由所述智能体执行，以使得所述机器人执行所述动作；在执行所述动作之后，在所述状态空间中采样下一个状态；在执行所述动作之后...

【专利技术属性】
技术研发人员：丹尼尔，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人