System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能生产制造领域,具体涉及一种基于环境模型和深度强化学习的机械臂智能体控制决策方法。
技术介绍
1、制造智能化是我国制造业创新驱动、转型升级的主攻方向,而机械臂广泛应用于各种工业制造领域,包括智能车间在内普遍存在抓取场景,其具有重要的研究的理论价值和应用前景,实现机械臂的自主决策是智能制造的要求。近年来,基于深度强化学习的数据驱动方法因其端到端特性以及环境适应性和可学习的策略而被广泛关注。然而,迄今为止,通用强化学习算法的采样效率仍然相对较低,这限制了其在机器人领域的广泛应用,尤其是对于图像输入等具有高维观测的任务。基于模型的强化学习通过对环境的动态建模,让机器人与虚拟环境进行交互,可以有效提高样本效率。在基于图像的强化学习算法的最新进展中,dreamer作为一个先进的框架,在学习策略的同时额外构建一个用来模拟环境的世界模型,属于典型的基于模型的强化学习算法。
2、世界模型在机器人仿真和视频游戏等方面的应用可以有效的提高数据利用率。从过去的经验中学习世界模型,能让机器人或智能体想象未来的环境,减少与真实场景的交互次数。目前,世界模型已广泛应用于基于模型的强化学习中。hafner等人提出的基于循环状态空间的世界模型通过对环境中的确定性部分和随机性部分分别建模,能够有效预测环境的动力学变化,得以训练在紧凑的隐空间中解决任务的策略。
3、近年来,基于世界模型的强化学习算法发展迅速。hafner等人于2018年提出planet,构建了循环状态空间(recurrent state-space mode
4、上述列举的决策模型已经能够应用于机器人强化学习任务的训练执行,但还存在着一些问题,主要表现在世界模型对于环境动态转移只关注了正向转移,而对反向转移进行预测同样有利于捕捉环境的动力学规律,进而在训练时的样本效率、收敛速度等方面都还有一定的提升空间。
5、因此如何提高世界模型在训练时的样本效率、收敛速度是目前亟待解决的问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种基于改进dreamer框架的机械臂抓取方法,能够在世界模型中加入前向预测环节,使得世界模型更加有效的对环境进行模拟和预测,同时学习向前与向后两种环境动力学,提高了样本效率与训练收敛速度。
2、为达到上述目的,本专利技术提供的一种基于改进dreamer框架的机械臂抓取方法,在世界模型中加入前向预测环节,所述前向预测环节是通过当前状态和动作来预测上一时刻的隐空间状态,通过kl散度拉近预测预测的上一时刻的隐空间状态和上一时刻的后验状态分布距离,具体包括如下步骤:
3、s1,随机初始化世界模型参数φ、行动者actor网络参数θ和批评家critic网络参数ψ。
4、随机生成生产环境中的货物位置、放置目标;智能体与环境交互数据添加进数据集d。
5、设置超参数,包含前向预测损失函数权重βpre,采样批次长度l,策略训练想象轨迹长度h,模型网络学习率α。
6、s2,若当前机械臂与环境交互步数已经达到设置的最大步数maxsteps,则结束训练;否则,若当前回合结束则对环境进行重置,并且给出观测ostep,若回合正在进行则执行后续步骤s3。
7、s3,判断当前的智能体与环境交互步数是否应该进行训练,若应该进行训练则从当前的数据存储区d抽取批次为b、长度为l的轨迹其中at,ot,rt分别为交互过程中收集的动作、观测与奖励,t为时刻,k为当前抽取的轨迹起始时刻;利用世界模型计算所抽取轨迹中每一时刻的隐状态st=(ht,zt);ht和zt分别为隐状态中的确定性部分和随机性部分。
8、基于从采集数据中计算出的各时间步隐状态st,利用世界模型生成隐空间中的想象轨迹利用奖励预测模型以及状态价值模型预测对应状态的奖励和状态价值vψ(st),计算λ-return估计基于reinforce更新actor参数θ,通过回归估计的奖励基于梯度下降法更新critic参数ψ;进入下一步s4。
9、s4,计算当前交互步的隐空间状态sstep,输入actor模型中得到当前交互步所要采取的动作astep,向动作中添加探索需要的噪声后执行动作得到当前交互步的奖励rstep和下一步的观测ostep+1;将ostep,astep,rstep和ostep+1添加到数据缓存池中,当前交互步数加一。
10、s5,反复执行s2到s4操作,直至达到预设的最大步数;最终在当前规模问题上得到优化的模型参数包括世界模型参数φ、actor网络参数θ、critic网络参数ψ,使用该优化的模型参数得到的dreamer框架,其actor策略网络输出合理的动作以实现机械臂对目标的成功抓取。
11、进一步地,世界模型的结构包含序列模型、编码器、动力学预测模型、奖励预测模型以及解码器;所述动力学预测模型的目标是捕捉环境变化规律,加入的前向预测环节即最小化前向预测分布和前一个状态后验分布的kullback-leibler散度;
12、前向预测网络采用多层感知器mlp实现,在世界模型中的损失函数l(φ)中加入了前向预测损失函数lpre(φ),在计算lpre(φ)时对后验分布采取停止梯度的策略,以使得预测的状态分布单向逼近后验分布。
13、进一步地,世界模型中的损失函数l(φ)为:
14、
15、lpre(φ)=max(1,kl[sg(qφ(zt|本文档来自技高网...
【技术保护点】
1.一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,在世界模型中加入前向预测环节,所述前向预测环节是通过当前状态和动作来预测上一时刻的隐空间状态,通过KL散度拉近预测预测的上一时刻的隐空间状态和上一时刻的后验状态分布距离;该抓取方法具体包括如下步骤:
2.如权利要求1所述的一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,所述世界模型的结构包含序列模型、编码器、动力学预测模型、奖励预测模型以及解码器;所述动力学预测模型的目标是捕捉环境变化规律,加入的前向预测环节即最小化前向预测分布和前一个状态后验分布的Kullback-Leibler散度;
3.如权利要求2所述的一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,所述世界模型中的损失函数l(φ)为:
4.如权利要求2或3所述的一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,所述前向预测损失函数权重设置为βpre=1.0。
5.如权利要求3所述的一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,at,ot,rt分别为交互过程中收集的
6.如权利要求5所述的一种基于改进Dreamer框架的机械臂抓取方法,其特征在于,交互过程中收集的观测ot具体为:
...【技术特征摘要】
1.一种基于改进dreamer框架的机械臂抓取方法,其特征在于,在世界模型中加入前向预测环节,所述前向预测环节是通过当前状态和动作来预测上一时刻的隐空间状态,通过kl散度拉近预测预测的上一时刻的隐空间状态和上一时刻的后验状态分布距离;该抓取方法具体包括如下步骤:
2.如权利要求1所述的一种基于改进dreamer框架的机械臂抓取方法,其特征在于,所述世界模型的结构包含序列模型、编码器、动力学预测模型、奖励预测模型以及解码器;所述动力学预测模型的目标是捕捉环境变化规律,加入的前向预测环节即最小化前向预测分布和前一个状态后验分布的kullback-leibler...
【专利技术属性】
技术研发人员:王钢,王树泽,孙健,梅云鹏,曾宪琳,陈杰,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。