一种基于深度强化学习的冗余机械臂可操作度优化方法及装置制造方法及图纸

技术编号:34369509 阅读:31 留言:0更新日期:2022-07-31 10:26
本发明专利技术公开了一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;用优化后的算法对冗余机械臂进行控制。本发明专利技术通过首次使用带有可操作度奖励的强化学习方法来训练机械臂,使得机械臂在具备末端轨迹跟踪能力的同时,具备自动优化可操作度的能力,并且具备很好的通用性,能够对各种复杂的机器人结构进行训练。训练。训练。

A method and device for optimizing the operability of redundant manipulator based on deep reinforcement learning

【技术实现步骤摘要】
一种基于深度强化学习的冗余机械臂可操作度优化方法及装置


[0001]本专利技术涉及冗余机械臂控制
,具体为一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。

技术介绍

[0002]冗余机械臂具有多余的空间运动自由度,在空间避障和运动规划方面具有很大的优点,成为机器人研究领域的热点。但是冗余机械臂控制领域中存在一个重要的控制难题,是运动规划中的奇异点问题。冗余机械臂虽然具备很强的灵活性,但是其在实际的运动规划中仍然会遇到奇异臂型的问题,当机械臂靠近奇异状态时,末端很小的位移就会引发机械臂的关节剧烈抖动,从而引发关节损坏、传感器故障的问题。为了解决这一问题,很多学者在机器人运动规划中优化机器人的操作性能评价指标(如可操作度),以保障机器人运动的灵巧性,从而在运动过程中尽可能地远离机器人奇异状态。
[0003]在对机器人进行灵巧控制时,通常的做法是基于传统的控制方法,即在规划路径时在关节的零空间中加入可操作度w随角度q的梯度使得规划时臂型尽量地朝着可操作度高的方向运动,但是这样处理会带来很复杂的矩阵求导以及矩阵求逆的运算,不便于实时解算。强化学习属于机器学习的一种,它研究的问题是如何让智能体学习到一种执行策略使得其在环境中能获得最大奖赏。如中国专利CN201710042360.1提出一种冗余度机械臂的可操作度优化的运动规划方法包括:设定冗余度机械臂的可操作度导数最大化的优化运动性能指标,以及与所述运动性能指标相应的约束关系;将所述运动性能指标以及相应的约束关系转化为二次规划问题;通过二次规划求解器对所述二次规划问题进行求解,得到求解结果;根据所述求解结果控制机械臂运动。但是该专利存在如下几个缺点:a)此专利的可操作度优化是基于传统的雅可比矩阵优化,且需要多次迭代计算,这给轨迹规划过程带来很大的时间复杂度,运算速度慢;b)可操作度优化需要针对不同机器人的结构进行数学变换,公式复杂,不便于推广到结构更复杂的机器人上。

技术实现思路

[0004]为了解决现有技术中存在针对轨迹规划过程中优化可操作度的实时性差、运算速度慢以及针对数学变换,公式复杂的技术问题,本专利技术的目的在于提供一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。
[0005]本专利技术提供了一种基于深度强化学习的冗余机械臂可操作度优化方法,包括如下步骤:
[0006]S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
[0007]S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
[0008]S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
[0009]S4、用优化后的算法对冗余机械臂进行控制。
[0010]在一些实施例中,步骤S1中所述固定复位是机械臂处于水平伸直状态。
[0011]在一些实施例中,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛。
[0012]在一些实施例中,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务。
[0013]在一些实施例中,所述步骤S1中,每次回合开始,机械臂处于水平伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。
[0014]在一些实施例中,对输入状态和输出动作的值范围都进行对称处理,保证它们都具备的对称分布特点。
[0015]在一些实施例中,设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。
[0016]在一些实施例中,将折扣因子γ取值取0,以消除下一步动作价值Q(s,a)的干扰。
[0017]在一些实施例中,取k
w1
的值使得k
w1
/w
t+1
与d
t+1
的数量级相近,从而在训练中兼顾末端接近任务和增大可操作度任务,其中k
w1
是可调整的超参数,d
t+1
为机械臂末端位置与目标点的欧氏距离,下标t代表t时刻的状态变量,下标t+1代表t+1时刻的状态变量。
[0018]本专利技术还提供一种冗余机械臂控制装置,包括:包括至少一个存储器以及至少一个处理器;
[0019]所述存储器,包括存储于其中的至少一个可执行程序;
[0020]所述可执行程序在由所述处理器执行时,实现所述的方法。
[0021]本专利技术所述的基于深度强化学习的冗余机械臂可操作度优化方法,通过首次使用带有可操作度奖励的强化学习方法来训练机械臂,在强化学习方法的奖励函数中增加可操作度指标,可以让训练后的机械臂在末端轨迹运动的同时自动地增大其可操作度,无需复杂的运动学求解和迭代计算,具备更强的实时性,从而解决传统方法中实时差的问题,从而使得机械臂在具备末端轨迹跟踪能力的同时,具备自动优化可操作度的能力,并且具备很好的通用性,能够对各种复杂的机器人结构进行训练。
[0022]另外,本专利技术所述的基于深度强化学习的冗余机械臂可操作度优化方法,通过分步优化,一步一步由易到难,在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,以确保训练能够收敛。
附图说明
[0023]图1为本专利技术实施例提供的基于深度强化学习的冗余机械臂可操作度优化方法的流程示意图;
[0024]图2为本专利技术实施例中6关节12自由度的超冗余机械臂在mujoco仿真引擎中的显示图;
[0025]图3为本专利技术实施例中固定复位机制下不同γ在评估过程中的成功率随回合的变化曲线图;
[0026]图4为本专利技术实施例中固定复位机制下不同γ在评估过程中的回报随回合的变化
曲线图;
[0027]图5为本专利技术实施例中随机复位机制下不同γ在评估过程中的成功率随回合的变化曲线图;
[0028]图6为本专利技术实施例中随机复位机制下不同γ在评估过程中的回报随回合的变化曲线图;
[0029]图7为本专利技术实施例中不同k
w1
在评估过程中的成功率随回合的变化曲线图;
[0030]图8为本专利技术实施例中不同k
w1
在评估过程中的成功率随回合的变化曲线图;
[0031]图9为本专利技术实施例中不同k
w1
在评估过程中的成功率随回合的变化曲线图;
[0032]图10为本专利技术实施例中不同k
w1
在评估过程中,圆轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图;
[0033]图11为不同k
w1
在评估过程中,直线轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图;
[0034]图12为本专利技术实施例中不同k
w1
在线段与圆混合轨迹评估过程中,包括k
w1
=0可操作度随机械臂运动步数的变化曲线图;
[0035]图13为本专利技术实施例中不同k...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括如下步骤:S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;S4、用优化后的算法对冗余机械臂进行控制。2.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,步骤S1中所述固定复位是机械臂处于水平伸直状态。3.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛。4.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务。5.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,所述步骤S1中,每次回合开始,机械臂处于水平伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。6.如权利要求4所述的基于深度强化学习...

【专利技术属性】
技术研发人员:梁斌王学谦杨皓强孟得山
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1