用于支持策略学习的方法和系统技术方案

技术编号:36155744 阅读:16 留言:0更新日期:2022-12-31 20:02
本发明专利技术描述了用于机器人的智能体中的支持策略学习的方法和系统。所述方法包括:学习主要策略的广义值函数(general value function,GVF),其中,所述GVF表示所述智能体在环境的给定状态下执行所述主要策略的未来性能;总控策略根据从所述广义值函数中得到的预测累积成功值选择动作;当所述预测累积成功值是可接受值时,所述总控策略选择的所述动作是执行所述主要策略;当所述预测累积成功值不是可接受值时,所述总控策略选择的所述动作使得学习支持策略;所述支持策略生成要执行的支持动作,其中,所述支持动作使得所述机器人从所述预测累积成功值具有可接受值的新状态转移到新状态。移到新状态。移到新状态。

【技术实现步骤摘要】
【国外来华专利技术】用于支持策略学习的方法和系统


[0001]本专利技术涉及配置有强化学习(reinforcement learning,RL)智能体的机器人中的支持策略学习的方法,尤其涉及用于提高现有策略的通用性和使用范围的支持策略学习。

技术介绍

[0002]目前,存在解决特定任务的现有算法或解决方案的机器人控制系统可能无法将现有解决方案推广为能够在相同环境中解决更多类似任务的解决方案。
[0003]现有解决方案可以包括使用强化学习(reinforcement learning,RL)实现的机器学习解决方案。在人工智能(artificial intelligence,AI)的背景下,强化学习历来通过动态编程实现,动态编程使用一系列奖励来学习函数。通常情况下,机器人中执行强化学习(reinforcement learning,RL)算法的智能体(以下称为RL智能体)擅长通过探索环境、收集状态、根据策略在环境中执行动作、接收环境中状态和对应奖励的变化以及改进策略以最大限度地提高其奖励回报,从零开始(tabular rasa)解决任务。然而,随着问题复杂性的增加,就像在解决方案广义化的情况下一样,RL智能体可能会开始失效,而且变得越来越难以训练。
[0004]一些挑战可能包括以下方面。大的或无限的状态和动作空间是复杂问题环境的特征,RL智能体可能很难探索。抽样效率低下也可能是一项挑战,其中,由于采样可能存在的状态的效率低,因此训练RL智能体可能比较耗时。稀疏奖励可能是一项挑战,其中,采样不到足够多的不同奖励来改进RL智能体在一系列不同状态下的行为。信用分配可能是一项挑战,其中,对于需要解决长动作序列的长时间范围任务,通常很难将奖励与产生改进点的源任务关联起来。迁移学习可能是另一项挑战,其中,很难将学习到的策略应用于相关问题或不同环境中的相同问题,包括模拟到现实(simulation to real world,sim

to

real)迁移。
[0005]处理大的或无限的状态和动作空间的常见方法是应用函数近似,例如深度学习,以学习紧凑表示状态的特征。然而,由于深度神经网络通常需要许多样本进行有效训练,因此往往使抽样效率低下问题更加严重。
[0006]试图解决上述一些挑战的另一种常见方法是将课程学习方法应用于RL智能体,以导出学习到的解决方案,特别适用于具有大的状态和动作空间的复杂任务、长时间范围任务和稀疏奖励任务。专家提供的精心设计的课程有几个优点。例如,课程学习通常将任务分解成一系列较小的任务以按照复杂性递增的顺序来解决,这使得RL智能体在进入复杂任务之前专注于解决简单任务。相应地,由于课程指导智能体在解决复杂任务之前先解决简单任务,因此RL智能体的学习速度更快。课程的关键点是,复杂问题的解决方案可以重用以前简单问题的知识,而不是从零开始。使用课程学习是迁移学习的一个实例,其中,发现一系列逐渐复杂的问题,因此智能体必须将早期任务的解决方案的知识迁移到后期任务。
[0007]然而,使用迁移学习的一项挑战是灾难性遗忘。当更新一个领域中任务的解决方案的参数以优化另一个领域中新任务的解决方案时,就会发生灾难性遗忘或灾难性干扰,
但更新后的解决方案无法解决或“忘记”如何解决源任务。缓解这种灾难性遗忘问题的一种方法是使用渐进式网络,即通过在模拟环境中训练智能体、固定网络和共享为了加快在真实任务上训练并行网络而学习的特征,使用渐进式网络实现迁移。
[0008]上述许多和类似的解决方案涉及利用简单任务的现有解决方案,以加快学习更复杂任务。然而,现有解决方案通常只有在满足某些条件和假设时才能表现良好。现有解决方案通常不能解决所有问题,特别是在条件和假设不满足的情况下。
[0009]最好实现端到端学习,其中,RL智能体学习广义解决方案,以在没有(或最少)条件和假设的情况下解决给定问题。鉴于将RL应用于上述复杂问题存在许多挑战,许多问题还不存在广义的端到端解决方案。

技术实现思路

[0010]本专利技术描述了可以通过高效重用现有解决方案在环境的相同动作空间和状态空间中实现复杂任务的端到端RL解决方案的方法和系统,而不管现有解决方案是使用RL学习的还是手工设计的。
[0011]在至少一个方面中,本专利技术涉及一种用于支持策略学习(support policy learning,SPL)的方法。具体地,一个或多个简单任务的现有解决方案,无论是使用RL学习的还是手工设计的,都视为一个或多个黑匣子并且重复用于快速高效解决更多、更复杂任务,尽管一个或多个现有解决方案可能存在任何限制或假设。在一些示例中,SPL可能不那么容易受到灾难性遗忘的影响,这是因为现有解决方案被保留和固定,以便重复使用。
[0012]在一些示例性方面中,本专利技术描述了一种由机器人中的控制所述机器人与环境交互的智能体执行的方法。所述方法包括:接收主要策略,其中,所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作,所述智能体执行所述主要策略的性能由累积成功值度量;使用策略评估算法学习所述主要策略的广义值函数,其中,所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值,所述给定状态在整个状态空间中;获取总控策略,其中,所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作;当所述预测累积成功值是可接受值时,所述总控策略选择的所述动作使得执行所述主要策略,以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作;当所述预测累积成功值不是可接受值时,所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略,其中,所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作,所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的新状态。
[0013]在一些示例性方面中,本专利技术描述了一种机器人中的处理单元。所述处理单元执行机器可执行指令以实现智能体来控制所述机器人与环境交互,所述指令使得所述智能体执行以下操作:接收主要策略,其中,所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作,所述智能体执行所述主要策略的性能由累积成功值度量;使用策略评估算法学习所述主要策略的广义值函数,其中,所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值,所述给定状态在整个状态空间中;获取总控策略,其中,所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作;当所述预测累积成功值是可接受值时,所述总控策略选择的所述动作使
得执行所述主要策略,以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作;当所述预测累积成功值不是可接受值时,所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略,其中,所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作,所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由机器人中的控制所述机器人与环境交互的智能体执行的方法,其特征在于,所述方法包括:接收主要策略,其中,所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作,所述智能体执行所述主要策略的性能由累积成功值度量;使用策略评估算法学习所述主要策略的广义值函数,其中,所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值,所述给定状态在整个状态空间中;获取总控策略,其中,所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作;当所述预测累积成功值是可接受值时,所述总控策略选择的所述动作使得执行所述主要策略,以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作;当所述预测累积成功值不是可接受值时,所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略,其中,所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作,所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的新状态。2.根据权利要求1所述的方法,其特征在于,所述使用策略评估算法学习广义值函数包括:执行多次迭代,其中,每次迭代包括:根据所述状态空间中的当前状态,采样所述主要策略生成的动作,其中,所述动作由所述智能体执行,以使得所述机器人执行所述动作;在执行所述动作之后,在所述状态空间中采样下一个状态;在执行所述动作之后,通过从所述当前状态转移到所述下一个状态计算累积量,其中,所述累积量表示所述智能体在所述当前状态下的成功值;至少存储与所述当前状态、所述动作和所述下一个状态相关联的累积量;更新所述广义值函数以预测所述累积成功值。3.根据权利要求2所述的方法,其特征在于,所述广义值函数使用时间差分学习或蒙特卡罗估计来更新。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述支持策略根据奖励学习,其中,所述奖励基于从所述广义值函数中得到的所述预测累积成功值,所述广义值函数考虑从所述状态空间中采样的多个状态。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取总控策略包括:确定阈值;所述总控策略被定义用来在所述广义值函数输出的成功值大于所述阈值时选择执行所述主要策略,还被定义用来在所述广义值函数输出的成功值不大于阈值时选择学习所述支持策略。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取总控策略包括:在学习所述总控策略的同时学习所述支持策略,其中,所述总控策略根据总控策略奖励来学习,所述支持策略根据支持策略奖励来学习,所述总控策略奖励和所述支持策略奖励都基于从所述广义值函数中得到的所述预测累积成功值。
7.根据权利要求6所述的方法,其特征在于,所述广义值函数、所述总控策略和所述支持策略同时学习。8.一种机器人中的处理单元,其特征在于,所述处理单元执行机器可执行指令以实现智能体来控制所述机器人与环境交互,所述指令使得所述智能体执行以下操作:接收主要策略,其中,所述主要策略根据所述机器人的状态生成要由所述机器人执行的动作,所述智能体执行所述主要策略的性能由累积成功值度量;使用策略评估算法学习所述主要策略的广义值函数,其中,所述广义值函数预测表示所述智能体在所述环境的给定状态下执行所述主要策略的未来性能的累积成功值,所述给定状态在整个状态空间中;获取总控策略,其中,所述总控策略根据从所述广义值函数中得到的所述预测累积成功值选择动作;当所述预测累积成功值是可接受值时,所述总控策略选择的所述动作使得执行所述主要策略,以使得所述机器人根据所述状态空间中的所述给定状态执行所述主要策略生成的主要动作;当所述预测累积成功值不是可接受值时,所述总控策略选择的所述动作使得使用强化学习算法来学习支持策略,其中,所述支持策略根据所述给定状态生成要由所述机器人执行的支持动作,所述支持动作使得所述机器人从所述给定状态转移到所述预测累积成功值具有可接受值的新状态。9.根据权利要求8所述的处理单元,其特征在于,所述指令使得所述智能体通过以下方式学习所述广义值函数:执行多次迭代,其中,每次迭代包括:根据所述状态空间中的当前状态,采样所述主要策略生成的动作,其中,所述动作由所述智能体执行,以使得所述机器人执行所述动作;在执行所述动作之后,在所述状态空间中采样下一个状态;在执行所述动作之后...

【专利技术属性】
技术研发人员:丹尼尔
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1