【技术实现步骤摘要】
本专利技术涉及强化学习、元学习和自动控制,并特别涉及一种基于上下文符号策略的元强化学习自动控制方法及系统。
技术介绍
1、在过去的几十年里,强化学习(rl)算法在许多任务上都表现出了令人印象深刻的性能,甚至超过了人类。然而,与可以跨任务传递知识并适应经验有限的新环境的人类智能相比,传统的rl算法通常为每个任务学习单独的策略,并且需要大量的经验。为了解决这个问题,元强化学习(meta-rl)从训练任务分布中收集的经验中学习常识。然后通过学习到的归纳偏差,该策略可以以少量经验适应看不见的任务,即未见任务,其指的是训练过程中不包含的任务,未见任务可能和训练过程中的任务的动态转移函数或者奖励函数不同。在meta-rl中,几种方法具有相同的动机:只有一部分参数需要在新环境中更新。他们强制他们的模型以一组特定于任务的参数为条件,这些参数称为上下文变量,这些参数是通过聚合经验形成的。这些方法被归类为基于上下文的meta-rl方法,与以前更新整个模型的方法相比,它们在经验上具有更高的性能和更高的效率,因此具有吸引力。此外,一些先进的基于上下文的meta
...【技术保护点】
1.一种基于上下文符号策略的元强化学习自动控制方法,其特征在于,包括:
2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,步骤4从缓冲区中采集的数据包括:使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s;该价值网络Q输入该环境状态s、该动作a、上下文编码z,输出该最优累计回报的估计。
3.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该符号网络的激活函数为符号运算符,对于符号网络的第l层,将输入表示为xl-1,将参数表示为wl,bl,lth
...【技术特征摘要】
1.一种基于上下文符号策略的元强化学习自动控制方法,其特征在于,包括:
2.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,步骤4从缓冲区中采集的数据包括:使用预测控制策略控制该基础控制对象执行运动轨迹的上下文编码z、执行的动作a以及动作导致的环境状态s;该价值网络q输入该环境状态s、该动作a、上下文编码z,输出该最优累计回报的估计。
3.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该符号网络的激活函数为符号运算符,对于符号网络的第l层,将输入表示为xl-1,将参数表示为wl,bl,lth层包含m个一元函数和n个二元函数首先,lth层的输入将被一个全连接层线性变换:
4.如权利要求1所述的基于上下文符号策略的元强化学习自动控制方法,其特征在于,该基础控制对象和该目标控制对象为机械臂或自动驾驶车辆;对应的该动作维度为机械臂每个关节的力矩或自动驾驶车辆转向机的力矩、施加至每个轮胎的加速或刹车的力矩。
5.一种基于上下文符号策略的元强化学习自动控制系统,其特征在于,包括:
6.如权利...
【专利技术属性】
技术研发人员:张蕊,郭家明,彭少辉,易琦,胡杏,杜子东,张曦珊,郭崎,陈云霁,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。