【技术实现步骤摘要】
本专利技术涉及无模型回归强化学习,特别是指一种基于无模型回归强化学习的机器人系统控制方法及装置。
技术介绍
1、机器人控制在工业领域、服务领域以及自动驾驶和无人机领域等具有重要应用。hjb方程旨在描述机器人动态系统中的最优决策过程,而机器人动态系统的最优决策问题的解往往依赖于hjb方程的解。强化学习能够处理高维状态空间,克服传统方法的“维度诅咒”问题,并且可以在环境中实时学习,适应系统的动态变化如文献1和2[frank l. lewis,draguna vrabie, kyriakos g. vamvoudakis. “reinforcement learning and feedbackcontrol: using natural decision methods to design optimal adaptivecontrollers”. ieee control systems magazine, vol. 32, no. 6, pp. 76-105, dec.2012, modares, hamidreza, frank l.
...【技术保护点】
1.一种基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述S1中,构建2自由度非线性机器人系统,并对所述2自由度非线性机器人系统进行转换;构建转换后的机器人系统的执行-评判网络,将所述执行-评判网络的常数权值更新的迭代次数初始化为1,包括:
3.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述S2中,获取可容许输入控制数据,将所述可容许输入控制数据作为所述转换后的机器人系统的输入信号;包括:
4.
...【技术特征摘要】
1.一种基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s1中,构建2自由度非线性机器人系统,并对所述2自由度非线性机器人系统进行转换;构建转换后的机器人系统的执行-评判网络,将所述执行-评判网络的常数权值更新的迭代次数初始化为1,包括:
3.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s2中,获取可容许输入控制数据,将所述可容许输入控制数据作为所述转换后的机器人系统的输入信号;包括:
4.根据权利要求3所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s3中,执行所述可容许输入控制数据到转换后的机器人系统中,采集转换后的机器人系统状态信号数据;基于所述可容许输入控制数据和所述机器人系统状态信号数据,计算执行-评判网络的信息数据;基于所述可容许输入控制数据计算转换后的机器人系统的性能指标函数值,包括:
5.根据权利要求4所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,...
【专利技术属性】
技术研发人员:夏丽娜,赵泽龙,李擎,宋睿卓,李江昀,杨高富,庄培显,钟祚栋,唐梦兆,英子瑄,岳骏慧,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。