基于无模型回归强化学习的机器人系统控制方法及装置制造方法及图纸

技术编号:43926136 阅读:66 留言:0更新日期:2025-01-03 13:31
本发明专利技术涉及无模型回归强化学习技术领域,特别涉及基于无模型回归强化学习的机器人系统控制方法及装置。方法包括:对机器人非线性系统进行系统变换,寻找可容许控制作为输入数据,收集系统信息,包括不同时刻的状态信息、执行‑评判网络的基函数值等;利用收集的信息计算关键列向量和性能指标函数。利用迭代回归信息推导出辅助回归常数权值和整合执行‑评判网络的常数权值的迭代规则,基于最优执行‑评判网络值对机器人系统进行最优控制,使机器人系统进行物体抓取。本发明专利技术通过对机器人系统信号的采集,不断迭代带折扣参数的神经网络权值,得到最优权值向量,获得最优决策控制方法,获得机器人系统最优控制决策,通过机器人系统对物体进行抓取。

【技术实现步骤摘要】

本专利技术涉及无模型回归强化学习,特别是指一种基于无模型回归强化学习的机器人系统控制方法及装置


技术介绍

1、机器人控制在工业领域、服务领域以及自动驾驶和无人机领域等具有重要应用。hjb方程旨在描述机器人动态系统中的最优决策过程,而机器人动态系统的最优决策问题的解往往依赖于hjb方程的解。强化学习能够处理高维状态空间,克服传统方法的“维度诅咒”问题,并且可以在环境中实时学习,适应系统的动态变化如文献1和2[frank l. lewis,draguna vrabie, kyriakos g. vamvoudakis. “reinforcement learning and feedbackcontrol: using natural decision methods to design optimal adaptivecontrollers”. ieee control systems magazine, vol. 32, no. 6, pp. 76-105, dec.2012, modares, hamidreza, frank l. lewis. “o本文档来自技高网...

【技术保护点】

1.一种基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述S1中,构建2自由度非线性机器人系统,并对所述2自由度非线性机器人系统进行转换;构建转换后的机器人系统的执行-评判网络,将所述执行-评判网络的常数权值更新的迭代次数初始化为1,包括:

3.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述S2中,获取可容许输入控制数据,将所述可容许输入控制数据作为所述转换后的机器人系统的输入信号;包括:

4.根据权利要求3所述的...

【技术特征摘要】

1.一种基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s1中,构建2自由度非线性机器人系统,并对所述2自由度非线性机器人系统进行转换;构建转换后的机器人系统的执行-评判网络,将所述执行-评判网络的常数权值更新的迭代次数初始化为1,包括:

3.根据权利要求1所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s2中,获取可容许输入控制数据,将所述可容许输入控制数据作为所述转换后的机器人系统的输入信号;包括:

4.根据权利要求3所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,所述s3中,执行所述可容许输入控制数据到转换后的机器人系统中,采集转换后的机器人系统状态信号数据;基于所述可容许输入控制数据和所述机器人系统状态信号数据,计算执行-评判网络的信息数据;基于所述可容许输入控制数据计算转换后的机器人系统的性能指标函数值,包括:

5.根据权利要求4所述的基于无模型回归强化学习的机器人系统控制方法,其特征在于,...

【专利技术属性】
技术研发人员:夏丽娜赵泽龙李擎宋睿卓李江昀杨高富庄培显钟祚栋唐梦兆英子瑄岳骏慧
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1