基于上下文符号策略的元强化学习自动控制方法及系统技术方案

技术编号：41267991 阅读：5 留言：0更新日期：2024-05-11 09:23

本发明专利技术提出一种基于上下文符号策略的元强化学习自动控制方法和系统，包括：将基础控制对象的运动轨迹的上下文变量输入参数生成器，得到上下文变量中所有动作维度在符号网络中的预测参数；路径选择器通过在预测参数上乘以二进制掩码，以从符号网络中选择代表符号表达式形式的路径；符号网络根据路径和预测参数，生成训练样本的预测控制策略；使用预测控制策略控制基础控制对象，根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器；将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器，得到符号网络的结构和参数，从而得到目标控制对象符号化的控制策略，以控制策略控制目标控制对象完成控制目标。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习、元学习和自动控制，并特别涉及一种基于上下文符号策略的元强化学习自动控制方法及系统。

技术介绍

1、在过去的几十年里，强化学习(rl)算法在许多任务上都表现出了令人印象深刻的性能，甚至超过了人类。然而，与可以跨任务传递知识并适应经验有限的新环境的人类智能相比，传统的rl算法通常为每个任务学习单独的策略，并且需要大量的经验。为了解决这个问题，元强化学习(meta-rl)从训练任务分布中收集的经验中学习常识。然后通过学习到的归纳偏差，该策略可以以少量经验适应看不见的任务，即未见任务，其指的是训练过程中不包含的任务，未见任务可能和训练过程中的任务的动态转移函数或者奖励函数不同。在meta-rl中，几种方法具有相同的动机：只有一部分参数需要在新环境中更新。他们强制他们的模型以一组特定于任务的参数为条件，这些参数称为上下文变量，这些参数是通过聚合经验形成的。这些方法被归类为基于上下文的meta-rl方法，与以前更新整个模型的方法相比，它们在经验上具有更高的性能和更高的效率，因此具有吸引力。此外，一些先进的基于上下文的meta-rl方法通过以非策略方式元学习策略来提高效率。最近，一些工作通过修改提取上下文变量的方式或收集经验的探索策略，进一步提高了基于上下文的meta-rl的性能。

2、然而，如何将上下文变量合并到策略中仍然是一个悬而未决的问题。大多数当前方法将其上下文策略形成为神经网络(nn)，并直接将上下文变量作为输入的一部分。这种基于神经网络的策略通常涉及数千个参数，这可能会带来训练困难，可能导致过度

3、更糟糕的是，我们必须将基于nn的策略视为一个难以理解和解释的黑盒，例如，我们无法理解不同任务的策略之间的区别是什么。

技术实现思路

1、本专利技术针对现有技术元强化学习算法的泛化性、推理效率和可解释性欠佳的技术问题。提出一种端到端的元强化学习符号策略的训练方法，该方法主要有三个模块：符号网络，参数生成器，路径选择器。该方法在训练完后，能对未见任务产生对应的符号化策略。策略一般为由矩阵乘法和相同的激活函数如relu构成的神经网络，而符号化策略则指由事先指定的操作符如sin cos tanh加减乘除等组成的简短表达式，相比神经网络策略，符号策略有更好的泛化能力，推理效率，和一定的可解释性。

2、具体来说本专利技术提出了一种基于上下文符号策略的元强化学习自动控制方法，其中包括：

3、步骤1、获取基础控制对象的多个训练样本，每个训练样本有不同的动力学参数但相同的控制目标，或每个训练样本有相同的动力学参数但不同的控制目标，初始化由多层前馈网络构成的符号网络，该符号网络的激活函数为符号运算符；初始化参数生成器，初始化路径选择器，初始化价值网络；

4、步骤2、采集该基础控制对象的运动轨迹存入缓冲区并对该运动轨迹进行编码，得到每个训练样本的上下文变量；

5、步骤3、将该上下文变量输入该参数生成器，得到该上下文变量中所有动作维度在该符号网络中的预测参数；该路径选择器通过在该预测参数上乘以二进制掩码，以从该符号网络中选择代表符号表达式形式的路径；该符号网络根据该路径和该预测参数，生成该训练样本的预测控制策略；

6、步骤4、使用预测控制策略控制该基础控制对象，并将其运动轨迹存入缓冲区，从缓冲区采集数据使用强化学习训练更新该参数生成器和路径选择器以及价值网络；

7、步骤5、重复步骤2到4直至价值网络输出的最优累计回报收敛或达到预设迭代次数，将目标控制对象的上下文变量输入训练完的该路径选择器和该参数生成器，得到该符号网络的结构和参数，从而得到该目标控制对象符号化的控制策略，以该控制策略控制该目标控制对象完成控制目标。

8、所述的基于上下文符号策略的元强化学习自动控制方法，其中步骤4从缓冲区中采集的数据包括：使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s；该价值网络q输入该环境状态s、该动作a、上下文编码z，输出该最优累计回报的估计。

9、所述的基于上下文符号策略的元强化学习自动控制方法，其中该符号网络的激活函数为符号运算符，对于符号网络的第l层，将输入表示为xl-1，将参数表示为wl，bl，lth层包含m个一元函数和n个二元函数首先，lth层的输入将被一个全连接层线性变换：

10、y＝fl(x)＝wlx+bl

11、全连接层实现符号表达式中的加减法，产生m+2n个输出，然后输出将通过符号运算符并连接以形成层输出：

12、

13、符号网络的lth层为sl：xl＝gl(fl(xl-1))；

14、在l层前馈网络的最后一层之后，设有一个全连接层以产生单个输出；

15、将上下文变量z～q(z|ck)合并到该符号网络；为了将符号表达式的参数根据上下文变量生成，我们提出了一个参数生成器：wg＝φ(z)，它是一个神经网络，基于上下文变量为所有动作维度生成该符号网络的参数；

16、该路径选择器通过在该符号网络的参数上乘以二进制掩码来从该符号网络中选择路径；路径代表符号表达式的形式，该参数生成器产生符号表达式的参数，路径和参数共同决定了符号表达式；路径选择器首先使用上下文变量生成分数：s＝ψ(z)，其中si∈(0，1)，将该分数si作为伯努利分布概率，从该伯努利分布概率中采样得到二进制掩码mi；那么符号网络的最终参数是其中是逐元素乘法运算。

17、所述的基于上下文符号策略的元强化学习自动控制方法，其中该基础控制对象和该目标控制对象为机械臂或自动驾驶车辆；对应的该动作维度为机械臂每个关节的力矩或自动驾驶车辆转向机的力矩、施加至每个轮胎的加速或刹车的力矩。

18、本专利技术提出了一种基于上下文符号策略的元强化学习自动控制系统，其中包括：

19、初始模块，用于获取基础控制对象的多个训练样本，每个训练样本有不同的动力学参数但相同的控制目标，或每个训练样本有相同的动力学参数但不同的控制目标，初始化由多层前馈网络构成的符号网络，该符号网络的激活函数为符号运算符；初始化参数生成器，初始化路径选择器，初始化价值网络；

20、编码模块，用于采集该基础控制对象的运动轨迹存入缓冲区并对该运动轨迹进行编码，得到每个训练样本的上下文变量；

21、训练模块，用于将该上下文变量输入该参数生成器，得到该上下文变量中所有动作维度在该符号网络中的预测参数；该路径选择器通过在该预测参数上乘以二进制掩码，以从该符号网络中选择代表符号表达式形式的路径；该符号网络根据该路径和该预测参数，生成该训练样本的预测控制策略；使用预测控制策略控制该基础控制对象，并将其运动轨迹存入缓冲区，从缓冲区采集数据使用强化学习训练更新该参数生成器和路径选择器和价值网络；

22、控制模块，用于再次调用编码本文档来自技高网...

【技术保护点】

1.一种基于上下文符号策略的元强化学习自动控制方法，其特征在于，包括：

2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法，其特征在于，步骤4从缓冲区中采集的数据包括：使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s；该价值网络Q输入该环境状态s、该动作a、上下文编码z，输出该最优累计回报的估计。

3.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法，其特征在于，该符号网络的激活函数为符号运算符，对于符号网络的第l层，将输入表示为xl-1，将参数表示为wl,bl，lth层包含m个一元函数和n个二元函数首先，lth层的输入将被一个全连接层线性变换：

4.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法，其特征在于，该基础控制对象和该目标控制对象为机械臂或自动驾驶车辆；对应的该动作维度为机械臂每个关节的力矩或自动驾驶车辆转向机的力矩、施加至每个轮胎的加速或刹车的力矩。

5.一种基于上下文符号策略的元强化学习自动控制系统，其特征在于，包括：

>6.如权利要求5所述的基于上下文符号策略的元强化学习自动控制系统，其特征在于，步骤4从缓冲区中采集的数据包括：使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s；该价值网络Q输入该环境状态s、该动作a、上下文编码z，输出该最优累计回报的估计。

7.如权利要求6所述的基于上下文符号策略的元强化学习自动控制系统，其特征在于，该符号网络的激活函数为符号运算符，对于符号网络的第l层，将输入表示为xl-1，将参数表示为wl,bl，lth层包含m个一元函数和n个二元函数首先，lth层的输入将被一个全连接层线性变换：

8.如权利要求5所述的基于上下文符号策略的元强化学习自动控制系统，其特征在于，该基础控制对象和该目标控制对象为机械臂或自动驾驶车辆；对应的该动作维度为机械臂每个关节的力矩或自动驾驶车辆转向机的力矩、施加至每个轮胎的加速或刹车的力矩。

9.一种存储介质，用于存储执行所述任意一种基于上下文符号策略的元强化学习自动控制方法的程序。

10.一种客户端，用于所述的任意一种基于上下文符号策略的元强化学习自动控制系统。

...

【技术特征摘要】

1.一种基于上下文符号策略的元强化学习自动控制方法，其特征在于，包括：

2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法，其特征在于，步骤4从缓冲区中采集的数据包括：使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s；该价值网络q输入该环境状态s、该动作a、上下文编码z，输出该最优累计回报的估计。

5.一种基于上下文符号策略的元强化学习自动控制系统，其特征在于，包括：

6.如权利...

【专利技术属性】
技术研发人员：张蕊，郭家明，彭少辉，易琦，胡杏，杜子东，张曦珊，郭崎，陈云霁，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人