System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种机器学习、机器人控制领域的方法,具体地,涉及一种适用于机器人动态自适应不同任务的双重鲁棒增强的深度元强化学习控制方法、系统、介质及终端。
技术介绍
1、深度强化学习在各种序列决策任务中取得了显著的成功,例如雅达利游戏和机器人控制等。传统强化学习方法训练的智能体控制策略旨在学习单一任务,因此即使在具有先前经验的新任务上无法快速适应。相比之下,深度元强化学习关注于“学会如何学习”,即学习如何适应。元强化学习本质上是从一组任务中收集的经验中学习了潜在的共同结构,然后利用这种结构在只进行少数尝试的情况下快速适应类似的新任务。
2、当前,深度元强化学习领域的主要挑战之一就是稀疏奖励设置,这种情况在现实世界的环境中广泛存在。当奖励变得稀疏时,强化学习智能体只能获得与任务相关的极少信息,这给元训练和适应过程带来了极大的困难。此外现实中,机器人在不同地形、气象等环境条件下执行任务的时候会存在不同的潜在环境动态,从而导致不同任务下存在不同的观测转移概率,也会对机器人控制策略的可泛用性带来挑战。
3、经过对现有技术的检索发现,alexander li等人在《advances in neuralinformation processing systems(神经信息处理系统的进展),33:7754–7767,2020.》上发表了题为“generalized hindsight for reinforcement learning”的文章,该文章将介绍了一种事后经验回放的方法。该方法来自其他目标任务的样本使用目标
4、双重鲁棒估计器是强化学习中解决概率分布不匹配的一种方法,nan jiang等人在《international conference on machine learning(机器学习国际会议),pages 652–661.pmlr,2016.》上发表了题为“doubly robust off-policy value evaluation forreinforcement learning”的文章,该文章介绍了一种较为简单的双重鲁棒估计器,该方法用于解决利用行为策略采样的经验去估计目的策略状态值的问题,然而该方法假定任务是相同的,因而没有考虑不同的动态。
技术实现思路
1、针对现有技术中的缺陷,本专利技术的目的是提供一种适用于机器人动态自适应不同任务的双重鲁棒增强的深度元强化学习控制方法、系统、介质及终端,致力于解决上述工业界实际机器人部署中由于潜在环境动态发生变化导致不能很好完成任务的技术问题。
2、根据本专利技术的一个方面,提供一种适用于机器人自适应不同任务的双重鲁棒增强的控制方法,包括:
3、s1,分别建立策略神经网络πθ、动作值神经网络qθ、推断神经网络eθ和观测转移预测神经网络并对网络参数进行初始化;
4、s2,采样多个不同的任务目标或潜在动力学参数,并以此为依据生成多个不同任务的仿真环境;
5、s3,在s2生成的多个不同仿真环境中运行机器人,所述机器人依照所述策略神经网络πθ输出的控制信号执行任务,记录机器人仿真控制过程中的观测信号、控制信号和奖励信号,并作为训练样本元组,为每个任务构建自己的训练数据集;
6、s4,对于每个仿真任务,从所述训练数据集中采样观测信号、控制信号和奖励信号的训练样本元组,将所述训练样本元组分别作为所述策略神经网络、动作值神经网络、推断神经网络模型和观测转移预测神经网络的输入,计算网络各自的损失函数,采用反向梯度传播方法分别优化各个网络模型;从所述训练数据集中为每个任务采样奖励信号大的信号轨迹,利用双重鲁棒估计器估计动作值作为目标,采用反向梯度传播方法优化所述动作值神经网络;
7、s5,将所述优化后的策略神经网络部署到所述机器人中,重复s2-s4,使所述策略神经网络在各个任务环境中获得尽可能大的奖励信号。
8、优选地,s2中,所述生成的多个不同任务的仿真环境,它们之间的任务目标和动力学参数不同,且同时存在奖励信号稀疏的情况,即只有机器人在解决目标附近才会获得与目标位置距离相关的奖励信号,否则仅获得固定值的奖励信号。
9、优选地,s3中,所述策略神经网络πθ输出的控制信号的过程,包括:
10、所述推断神经网络根据各个任务上采集到的最新数据批得到各个任务潜在特征信息的推断;
11、机器人观测到的观测信号和所述推断的任务潜在特征信息同时输入到所述策略神经网络得到控制信号分布参数,通过采样得到控制信号。
12、优选地,s4中,所述从所述训练数据集中采样观测信号、控制信号和奖励信号的训练样本元组,包括:
13、从数据缓存中所存储的所有训练样本元组中随机采样数据批用于所述策略神经网络、所述动作值神经网络和所述观测转移预测神经网络的优化和训练;
14、从数据缓存中最近一次仿真中收集的训练样本元组中随机采样数据批用于所述的推断神经网络模型的优化和训练;
15、对于每个任务,从所有任务的数据缓存中搜索累积折扣奖励信号最大的信号轨迹,采用其对应的训练样本元组,利用所述双重鲁棒估计器对动作值神经网络再进行优化和训练。
16、优选地,s4中,计算网络各自的损失函数,采用反向梯度传播方法分别优化各个网络模型,包括:
17、对于所述动作值神经网络的更新,包括利用数据批和信号轨迹的两次损失函数计算和更新,第一次损失函数定义为训练数据批中利用所述动作值神经网络和利用贝尔曼公式分别对动作值预测和估计的均方误差,即贝尔曼残差;第二次损失函数定义为利用所述动作值神经网络和利用所述双重鲁棒估计器对动作值预测和估计的均方误差;
18、所述推断神经网络eθ的更新采用的损失函数与所述动作值神经网络更新使用的第一次损失函数定义相同;
19、对于所述策略神经网络的更新,其损失函数定义为所述策略网络输出的控制信号的分布与各个动作的估计动作值计算得到的softmax分布的kl散度;
20、对于所述观测转移预测神经网络的更新,其损失函数定义为数据批中数据元组的负对数概率值的算数平均;
21、在优化所述动作值神经网络时,反向传播计算的第一次损失函数的梯度仅用来更新所述动作值神经网络的参数;在优化所述推断神经网络时,反向传播计算的梯度仅用来更新所述推断神经网络eθ的参数。
22、优选地,所述双重鲁棒估计器,通过策略的重要性比值和估计的观测转移概率比值,同时考虑任务之间观测转移概率不同和策略不同,通过极小化理论上所述双重鲁棒估计器与真值之间的最小平方误差,求解最优的观测转移概率比值,并推导其所在的相应区间,通过区间估计的方式来对估计的观测转移概率比值进行截取,提高值估计准确度。
23、优本文档来自技高网...
【技术保护点】
1.一种适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,包括:
2.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,S2中,所述生成的多个不同任务的仿真环境,它们之间的任务目标和动力学参数不同,且同时存在奖励信号稀疏的情况,即只有机器人在解决目标附近才会获得与目标位置距离相关的奖励信号,否则仅获得固定值的奖励信号。
3.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,S3中,所述策略神经网络πθ输出的控制信号的过程,包括:
4.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,S4中,所述从所述训练数据集中采样观测信号、控制信号和奖励信号的训练样本元组,包括:
5.根据权利要求4所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,S4中,计算网络各自的损失函数,采用反向梯度传播方法分别优化各个网络模型,包括:
6.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法
7.根据权利要求6所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,所述双重鲁棒估计器,其计算过程如下:
8.一种适用于机器人自适应不同任务的双重鲁棒增强的控制系统,其特征在于,包括:
9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-6中任一项所述的方法,或,运行权利要求7-8中任一项所述的系统。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-6中任一项所述的方法,或,运行权利要求7-8中任一项所述的系统。
...【技术特征摘要】
1.一种适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,包括:
2.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,s2中,所述生成的多个不同任务的仿真环境,它们之间的任务目标和动力学参数不同,且同时存在奖励信号稀疏的情况,即只有机器人在解决目标附近才会获得与目标位置距离相关的奖励信号,否则仅获得固定值的奖励信号。
3.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,s3中,所述策略神经网络πθ输出的控制信号的过程,包括:
4.根据权利要求1所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,s4中,所述从所述训练数据集中采样观测信号、控制信号和奖励信号的训练样本元组,包括:
5.根据权利要求4所述的适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,s4中,计算网络各自的损失函数,采用反向梯度传播方法分别优化各个网络模型,包括:
6.根据权利要求1所述的适用于机器人自适应不同...
【专利技术属性】
技术研发人员:李成林,蒋远堃,阚诺文,李劭辉,戴文睿,邹君妮,熊红凯,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。