System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自适应变阻抗控制方法和装置、电子设备及存储介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>五邑大学专利>正文

自适应变阻抗控制方法和装置、电子设备及存储介质制造方法及图纸

技术编号:40503646 阅读:7 留言:0更新日期:2024-03-01 13:17
本发明专利技术实施例提供了一种自适应变阻抗控制方法和装置、电子设备及存储介质。本发明专利技术在强化学习的框架下,采用深度确定性策略梯度DDPG算法。DDPG算法包括Actor网络和Cr it ic网络,通过在实际操作中不断学习,DDPG算法使得双机械臂能够调整其动作策略,以最大化累积奖励。在训练阶段,从经验池中随机选择样本,用于训练Actor‑Cr it ic网络,以获取最优的网络结构,通过使用训练好的Actor‑Cr it ic网络,双机械臂能够基于当前状态数据集做出最优的动作选择,以适应不确定环境并实现对目标物体的高效抓取。本发明专利技术实施例允许双机械臂通过强化学习不断优化其行为,从而更好地适应复杂的工作场景。

【技术实现步骤摘要】

本专利技术实施例涉及机器人控制,尤其涉及一种自适应变阻抗控制方法和装置、电子设备及存储介质


技术介绍

1、在工业生产中,传统的工业机器人通过位置控制来实现工业场景下的具体任务,但是在需要与环境进行交互的应用中,传统的基于位置控制的方法将不再胜任相应的任务。在焊接、抛光、轴孔装配等领域,与环境存在着大量复杂的接触,仅有工业机器人沿着指定路径运动,一旦机器人与指定路径存在位置的偏差,就会产生十分巨大的环境接触力,可能会导致工件的损坏,甚至损坏工业机器人。同复杂化和生产过程的柔性化,现有的以独立工位工作的机器人已不能满足日益变化的制造需求,为了适应非结构环境下任务复杂化、操作智能化及系统柔顺化的要求,两台器人通过相互配合和协作的方式在执行这类作业任务中表现出优势。双臂机器人在协调过程中双臂之间保持一定的约束关系,以完成双臂的协调任务。纯位置控制的基本思路是首先对被操作目标物体的轨迹进行规划,通过目标物体与双臂的约束关系,得到双臂末端的轨迹。但是这种控制方式并没有考虑双臂对目标物体的受力情况,也没有考虑目标物体受到外部干扰的情况。因此,如何在不确定的复杂场景下,实现双机械臂对目标物体的高效抓取成为亟待解决的技术问题。


技术实现思路

1、本专利技术实施例提供了一种自适应变阻抗控制方法和装置、电子设备及存储介质,能够使得机器人双机械臂基于当前状态数据集做出最优的动作选择,以适应不确定环境并实现对目标物体的高效抓取,并允许双机械臂通过强化学习不断优化其行为,从而更好地适应复杂的工作场景。>

2、第一方面,本专利技术实施例提供了一种自适应变阻抗控制方法,包括:

3、构建机器人双机械臂在抓取目标物体时的阻抗模型,将所述目标物体受到的内力和外力进行解耦,对所述内力与所述外力分别进行自适应阻抗控制;

4、初始化所述阻抗模型的网络参数和经验池,所述经验池用于存储所述机器人在环境中的经验元组,其中,所述阻抗模型包括actor网络和cr it ic网络,所述actor网络用于生成连续动作,所述cr it ic网络用于评估动作的质量,输出相应的动作值函数;

5、从所述机器人的状态空间中选择动作,执行选择的动作后,将环境反馈的所述经验元组存储到所述经验池中,并从所述经验池中随机采样一批数据,计算所述cr it ic网络的损失并进行反向传播,通过所述cr it ic网络计算目标q值,更新所述actor网络的参数以最大化q值,循环训练直至达到预设迭代次数,得到训练好的actor-cr it ic网络;

6、使用训练好的所述actor-cr it ic网络,在实际环境中执行双机械臂的动作对所述目标物体进行抓取。

7、在一些实施例中,所述方法还包括:

8、建立双机械臂协同系统坐标系,目标物体对于参考坐标系的位置和姿态用下式进行求解:

9、

10、式中,为目标物体相对于质心坐标系的转化矩阵;为物体相对于质心处坐标系的3x3的旋转矩阵:为目标物体相对于质心处坐标系的3x1的位置矩阵;

11、目标物体通过质心处坐标系与世界坐标系之间的转化为目标物体与机械臂之间的约束条件,由下式进行表达:

12、

13、式中,为质心处坐标系0相对于世界坐标系w的齐次坐标转换;表示双机械臂的基坐标系相对于世界坐标系的齐次坐标转换;表示双机械臂的末端坐标系相对于双机械臂的基坐标的其次转换;表示目标物体质心坐标系相对于机械臂末端的齐次转换:

14、通过下式对速度约束关系进行分析,使得双臂在运动的过程中保持位置和速度的一致性;

15、

16、式中,表示机械臂末端相对于世界坐标系的速度;表示物体相对于世界坐标系的速度,角速度;表示机械臂末端相对于世界位置变换矩阵;pio表示机械臂末端相对于目标物体质心的位置变换矩阵;表示目标物体质心相对于世界下的方向旋转矩阵。

17、在一些实施例中,所述将所述目标物体受到的内力和外力进行解耦,包括:

18、根据牛顿第二定律和欧拉方程建立双机械臂抓取目标物体的状态,建立以下目标物体的动力学方程:

19、

20、式中io表示目标物体质心处的惯性矩阵;fo∈r6表示双机械臂作用于目标物体上的矢量力;mo∈r6表示目标物体的质量惯性矩阵;表示目标物体运动过程中的线加速度和角加速度;co∈r6表示为目标物体的科氏力、重力和离心力的合力矢量;fext∈r6表示外部干扰力作用于目标物体上的适量力;将上式转化为下式:

21、

22、式中k=l,r表示为双机械臂的左臂和右臂,skt∈r6表示抓取矩阵;fk表示机械臂作用于目标物体上的力;将抓取矩阵分解得到外力式fi和得到内力式fe:

23、

24、

25、式中是矩阵的广义逆矩阵。

26、在一些实施例中,所述阻抗模型的方程式如下:

27、

28、式中m为惯性系数,b为阻尼系数,ε为自适应参数,δf代表力的误差值,和分别为机器臂的运动速度和运动加速度。

29、在一些实施例中,所述从所述经验池中随机采样一批数据,计算所述critic网络的损失并进行反向传播,通过所述critic网络计算目标q值,更新所述actor网络的参数以最大化q值,包括:

30、基于确定性梯度策略,根据所述动作值函数,对所述actor网络参数进行更新,确定性行为策略如下式:

31、μ→at=μ(st)

32、其中,μ为策略函数,s为当前状态,在确定性策略的动作在状态s时是唯一确定的,其公式如下:

33、at=μ(st|θμ)+nt

34、其中,θ为策略参数;在网络训练时,随机采样多个数据n,作为确定性策略μ的训练数据,衡量确定性策略μ表现在下式所示:

35、

36、其中,st~ρβ表示从经验分布ρβ中采样一个状态st,qμ(s,μ(s))表示critic网络对于给定状态s和动作μ(s)的值,整个期望表示在采样的状态和动作上取期望值;在训练时,通过样本均值来代替期望值;

37、actor网络通过最大化critic网络的输出来学习最优策略,actor网络的参数更新通过下式梯度上升的方式进行:

38、

39、其中,at~π表示从actor策略π中采样一个动作at,q(s,a|θq)表示critic网络对于给定状态s和动作a的值,梯度项表示critic网络对actor输出动作的梯度;

40、依据最小化损失函数l(θq)更新当前价值网络q的参数θq,所述最小化损失函数如下式:

41、

42、其中,n为随机采样个数,y为衰减系数。

43、在一些实施例中,所述从所述经验池中随机采样一批数据,计算所述critic网络的损失并进行反向传播,通过所述critic网络计算目标q值,更新所述a本文档来自技高网...

【技术保护点】

1.一种自适应变阻抗控制方法,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述目标物体受到的内力和外力进行解耦,包括:

4.根据权利要求1所述的方法,其特征在于,所述阻抗模型的方程式如下:

5.根据权利要求1所述的方法,其特征在于,所述从所述经验池中随机采样一批数据,计算所述Critic网络的损失并进行反向传播,通过所述Critic网络计算目标Q值,更新所述Actor网络的参数以最大化Q值,包括:

6.根据权利要求5所述的方法,其特征在于,所述从所述经验池中随机采样一批数据,计算所述Critic网络的损失并进行反向传播,通过所述Critic网络计算目标Q值,更新所述Actor网络的参数以最大化Q值,还包括:

7.根据权利要求1所述的方法,其特征在于,所述双机械臂协作运动过程的状态空间s定义如下式所示:

8.一种自适应变阻抗控制装置,其特征在于,所述装置包括:

9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的自适应变阻抗控制方法。

10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7任意一项所述的自适应变阻抗控制方法。

...

【技术特征摘要】

1.一种自适应变阻抗控制方法,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述目标物体受到的内力和外力进行解耦,包括:

4.根据权利要求1所述的方法,其特征在于,所述阻抗模型的方程式如下:

5.根据权利要求1所述的方法,其特征在于,所述从所述经验池中随机采样一批数据,计算所述critic网络的损失并进行反向传播,通过所述critic网络计算目标q值,更新所述actor网络的参数以最大化q值,包括:

6.根据权利要求5所述的方法,其特征在于,所述从所述经验池中随机采样一批数据,计算所述critic网络...

【专利技术属性】
技术研发人员:王宏民蒋孟吴龙华黄俊霖覃才植伟明叶欣桐刘起张海杰廖洁玲李志宏宋莹莹江励潘增喜黄辉梁艳阳李桦健
申请(专利权)人:五邑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1