基于上下文符号策略的元强化学习自动控制方法及系统技术方案

技术编号:41267991 阅读:33 留言:0更新日期:2024-05-11 09:23
本发明专利技术提出一种基于上下文符号策略的元强化学习自动控制方法和系统,包括:将基础控制对象的运动轨迹的上下文变量输入参数生成器,得到上下文变量中所有动作维度在符号网络中的预测参数;路径选择器通过在预测参数上乘以二进制掩码,以从符号网络中选择代表符号表达式形式的路径;符号网络根据路径和预测参数,生成训练样本的预测控制策略;使用预测控制策略控制基础控制对象,根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器;将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器,得到符号网络的结构和参数,从而得到目标控制对象符号化的控制策略,以控制策略控制目标控制对象完成控制目标。

【技术实现步骤摘要】

本专利技术涉及强化学习、元学习和自动控制,并特别涉及一种基于上下文符号策略的元强化学习自动控制方法及系统


技术介绍

1、在过去的几十年里,强化学习(rl)算法在许多任务上都表现出了令人印象深刻的性能,甚至超过了人类。然而,与可以跨任务传递知识并适应经验有限的新环境的人类智能相比,传统的rl算法通常为每个任务学习单独的策略,并且需要大量的经验。为了解决这个问题,元强化学习(meta-rl)从训练任务分布中收集的经验中学习常识。然后通过学习到的归纳偏差,该策略可以以少量经验适应看不见的任务,即未见任务,其指的是训练过程中不包含的任务,未见任务可能和训练过程中的任务的动态转移函数或者奖励函数不同。在meta-rl中,几种方法具有相同的动机:只有一部分参数需要在新环境中更新。他们强制他们的模型以一组特定于任务的参数为条件,这些参数称为上下文变量,这些参数是通过聚合经验形成的。这些方法被归类为基于上下文的meta-rl方法,与以前更新整个模型的方法相比,它们在经验上具有更高的性能和更高的效率,因此具有吸引力。此外,一些先进的基于上下文的meta-rl方法通过以非策本文档来自技高网...

【技术保护点】

1.一种基于上下文符号策略的元强化学习自动控制方法,其特征在于,包括:

2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,步骤4从缓冲区中采集的数据包括:使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s;该价值网络Q输入该环境状态s、该动作a、上下文编码z,输出该最优累计回报的估计。

3.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该符号网络的激活函数为符号运算符,对于符号网络的第l层,将输入表示为xl-1,将参数表示为wl,bl,lth层包含m个一元函数和...

【技术特征摘要】

1.一种基于上下文符号策略的元强化学习自动控制方法,其特征在于,包括:

2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,步骤4从缓冲区中采集的数据包括:使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s;该价值网络q输入该环境状态s、该动作a、上下文编码z,输出该最优累计回报的估计。

3.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该符号网络的激活函数为符号运算符,对于符号网络的第l层,将输入表示为xl-1,将参数表示为wl,bl,lth层包含m个一元函数和n个二元函数首先,lth层的输入将被一个全连接层线性变换:

4.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该基础控制对象和该目标控制对象为机械臂或自动驾驶车辆;对应的该动作维度为机械臂每个关节的力矩或自动驾驶车辆转向机的力矩、施加至每个轮胎的加速或刹车的力矩。

5.一种基于上下文符号策略的元强化学习自动控制系统,其特征在于,包括:

6.如权利...

【专利技术属性】
技术研发人员:张蕊郭家明彭少辉易琦胡杏杜子东张曦珊郭崎陈云霁
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1