一种基于制造技术

技术编号:39577793 阅读:11 留言:0更新日期:2023-12-03 19:28
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于MATD3算法的双臂机器人协同运动控制方法


[0001]本专利技术涉及机器人动力学控制与强化学习领域,具体为一种基于
MATD3
算法的双臂机器人协同运动控制方法


技术介绍

[0002]随着机器人任务种类的多样化,双机械臂协同操作逐渐成为机器人领域的新发展趋势,也面临着众多研究难点和挑战

由于双臂机器人存在多个自由度,如何在多自由度空间中规划运动轨迹,使双臂能够实现高效

平滑地协同操作,是一个复杂且具有挑战性的问题

[0003]目前已有的双臂协同控制方法主要分为基于运动学的控制方法和基于动力学的控制方法

基于运动学的控制方法主要针对双臂机器人运动中的各种约束条件

协同工作中的臂间干涉以及运动路径规划等问题进行深入分析

基于动力学的控制方法需要建立双臂机器人的动力学模型,通过控制机器人的关节力矩来实现协同运动

传统的基于运动学的方法不仅要求机器人能够准确地跟踪轨迹,还需要进行大量繁琐的逆运动学解算工作,其过程复杂且容易引起误差

基于动力学进行运动控制的方法往往对模型的精度要求较高,对模型误差和不确定性较为敏感


技术实现思路

[0004]针对上述提出的技术问题,本专利技术提供一种基于
MATD3
算法的双臂机器人协同运动控制方法,基于
MATD3

Multi

Agent Twin Delayed Deep Deterministic Policy Gradient
)算法,通过控制机器人关节力矩,实现对双臂机器人的协同运动控制

该算法以“集中训练,分散执行”的思路为基础,充分利用双臂系统之间的状态信息交互,实现更加高效和稳定的双臂协同运动

[0005]一种基于
MATD3
算法的双臂机器人协同运动控制方法,包括以下步骤:
[0006]步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程

[0007]步骤2,设计了一个多智能体
MATD3
算法:建立
MATD3
算法网络,设计网络结构及参数更新规则,具体的,对一个智能体分别建立一组策略

评价网络,策略网络根据状态信息选择动作组成动作对,采用
CEM
算法对动作对进行搜索,选择价值最高的动作作为当前时刻智能体所执行的动作,评价网络根据智能体的状态信息评估动作价值,网络根据以上信息更新网络参数

[0008]步骤3,将步骤2设计的算法用于双臂机器人协同运动控制,结合双臂机器人协同运动控制问题给出网络训练流程,具体的:训练面向双臂机器人协同控制的
MATD3
网络模型,网络包括两个智能体,选择每个智能体的状态空间

动作空间和奖励函数,并给出网络训练流程

[0009]步骤4,基于
MATD3
的双臂机器人协同运动控制,基于已训练的模型进行双臂机器人协同运动控制

[0010]有益效果
[0011](1)本专利技术采用多智能体强化学习算法,每个机械臂分别设计一个控制器,可有效降低每个控制器计算时间,从而实现高效实时的双臂协同运动

[0012](2)本专利技术采用基于动力学的力矩控制策略有效地避免了繁琐的逆运动学解算过程,提高了控制效率和可靠性

[0013](3)本专利技术使用强化学习算法,机器人能够从与环境的互动中进行自主学习,从而优化关节力矩控制策略,降低模型不确定性的影响,提高控制精度

附图说明
[0014]图1为本专利技术所提供的
MATD3
算法流程图;图2为本专利技术所提供的
MATD3
算法与环境交互流程图;图3为本专利技术一个实施例的训练时机械臂1的多组累积奖励值聚合图;图4为本专利技术一个实施例的训练时机械臂2的多组累积奖励值聚合图;图5为本专利技术一个实施例的测试时机械臂末端与目标位置距离的变化曲线;图6为本专利技术一个实施例的测试时机械臂各关节角度变化曲线;图7为本专利技术一个实施例的测试时机械臂1输出控制力矩曲线;图8为本专利技术一个实施例的测试时机械臂2输出控制力矩曲线

具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0016]如图1至图8所示,本专利技术公开了一种新的基于
MATD3
算法的双臂机器人协同运动控制方法,包括如下步骤:
[0017]步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程

[0018]步骤
1.1
,首先建立双臂六自由度机器人关节坐标,将机器人左

右臂的坐标统一到基坐标系下,根据坐标变换关系建立机械臂1的运动学方程:;机械臂2的运动学方程:

[0019]其中,表示机械臂
j
从第
i
‑1个连杆变换到第
i
个连杆所要经过的转移矩阵,表示第
j
个机械臂的第
i
个关节,
i=1,

,6

j=1,2。
[0020]定义机械臂1末端执行器的位置坐标,末端执行器1运动的目标位置在基坐标系下的位置坐标,其中,分别为机械臂1末端执行器的
x
轴坐标
、y
轴坐标
、z
轴坐标,分别为机械臂1末端执行器目标位置的
x
轴坐标
、y
轴坐

、z
轴坐标

同理,定义机械臂2末端执行器的位置坐标,末端执行器2运动的目标位置坐标,其中,分别为机械臂2末端执行器的
x
轴坐标
、y
轴坐标
、z
轴坐标,分别为机械臂2末端执行器目标运动位置的
x
轴坐标
、y
轴坐标
、z
轴坐标

[0021]步骤
1.2
,建立双臂机器人动力学方程如下:,
[0022]其中,分别为机械臂的关节角度

角速度

角加速度,分别代表机械臂的转动惯量矩阵

科氏力矩阵和重力矩阵,为机械臂各关节的控本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,包括以下步骤:步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程;步骤2,建立
MATD3
算法网络,并设计网络结构及参数更新规则,具体的,对一个智能体分别建立一组策略

评价网络,策略网络根据状态信息选择动作组成动作对,采用
CEM
算法对动作对进行搜索,选择价值最高的动作作为当前时刻智能体所执行的动作,评价网络根据智能体的状态信息评估动作价值,并更新网络参数;步骤3,训练面向双臂机器人协同控制的
MATD3
网络模型,网络包括两个智能体,选择每个智能体的状态空间

动作空间和奖励函数,并给出网络训练流程;步骤4,基于
MATD3
的双臂机器人协同运动控制,基于已训练的模型进行双臂机器人协同运动控制
。2.
根据权利要求1所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,所述步骤1中的双臂机器人系统模型,包括机械臂1的运动学模型:,机械臂2的运动学模型:,其中,表示机械臂
j
从第
i
‑1个连杆变换到第
i
个连杆所要经过的转移矩阵,表示第
j
个机械臂的第
i
个关节,
i=1,

,6

j=1,2
;机器人系统的动力学模型:,其中,分别为机械臂的关节角度

角速度

角加速度,分别代表机械臂的转动惯量矩阵

科氏力矩阵和重力矩阵,为机械臂各关节的控制力矩矩阵
。3.
根据权利要求1所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤2中,所述
MATD3
算法网络为:对每一个智能体分别建立一组策略

评价网络,包括一个策略网络

一个目标策略网络

两个评价网络

两个目标评价网络,设计网络参数包括策略网络参数

目标策略网络参数

两个评价网络参数

两个目标评价网络参数;步骤
2.1.1
,对于第
n
个智能体,其策略网络会根据自身采样观察到的状态信息,根据策略选择
Y
个动作组成动作对:;步骤
2.1.2
,智能体采用
CEM
算法对所述动作对进行搜索,通过评价网络根据所有智能体的状态计算动作的价值,并且输出价值最高的动作,表示为:
,
,其中,为状态信息,为动作对,为动作的价值,
j
为动作的个数;步骤
2.1.3
,每个智能体执行当前动作并与环境交互后,得到下一状态,产生执行动作后的奖励值;智能体将经验样本存放到经验回放池
D
中,作为训练网络的数据
。4.
根据权利要求3所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤2中,所述
MATD3
算法网络参数更新规则为:步骤
2.2.1
,智能体从经验回放池
D
中选择若干样本进行训练,将其中第
n
个智能体的第
i
组样本记为:;步骤
2.2.2
,目标策略网络根据下一状态,产生下一动作,分别传入两个目标评价网络中,目标评价网络根据所有智能体的状态计算动作的价值

,智能体选择其中较小的动作价值计算目标动作价值;步骤
2.2.3
,基于计算评价网络的
Loss 函数,并根据时序差分法优化更新评价网络的网络参数;步骤
2.2.4
,使用更新后的评价网络对目标评价网络的网络参数进行软更新
。5.
根据权利要求4所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤
2.2.2
中,所述目标动作价值表示为:,其中
r
为奖励值,
γ
为折扣因子,为下一状态,为下一动作,
Q
为动作的价值,为目标评价网络的网络参数,下标
i
表示第
i
组样本...

【专利技术属性】
技术研发人员:于丹陈炯光
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1