【技术实现步骤摘要】
一种基于MATD3算法的双臂机器人协同运动控制方法
[0001]本专利技术涉及机器人动力学控制与强化学习领域,具体为一种基于
MATD3
算法的双臂机器人协同运动控制方法
。
技术介绍
[0002]随着机器人任务种类的多样化,双机械臂协同操作逐渐成为机器人领域的新发展趋势,也面临着众多研究难点和挑战
。
由于双臂机器人存在多个自由度,如何在多自由度空间中规划运动轨迹,使双臂能够实现高效
、
平滑地协同操作,是一个复杂且具有挑战性的问题
。
[0003]目前已有的双臂协同控制方法主要分为基于运动学的控制方法和基于动力学的控制方法
。
基于运动学的控制方法主要针对双臂机器人运动中的各种约束条件
、
协同工作中的臂间干涉以及运动路径规划等问题进行深入分析
。
基于动力学的控制方法需要建立双臂机器人的动力学模型,通过控制机器人的关节力矩来实现协同运动
。
传统的基于运动学的方法不仅要求机器人能够准确地跟踪轨迹,还需要进行大量繁琐的逆运动学解算工作,其过程复杂且容易引起误差
。
基于动力学进行运动控制的方法往往对模型的精度要求较高,对模型误差和不确定性较为敏感
。
技术实现思路
[0004]针对上述提出的技术问题,本专利技术提供一种基于
MATD3
算法的双臂机器人协同运动控制方法,基于
MATD3
(
Multi ...
【技术保护点】
【技术特征摘要】
1.
一种基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,包括以下步骤:步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程;步骤2,建立
MATD3
算法网络,并设计网络结构及参数更新规则,具体的,对一个智能体分别建立一组策略
‑
评价网络,策略网络根据状态信息选择动作组成动作对,采用
CEM
算法对动作对进行搜索,选择价值最高的动作作为当前时刻智能体所执行的动作,评价网络根据智能体的状态信息评估动作价值,并更新网络参数;步骤3,训练面向双臂机器人协同控制的
MATD3
网络模型,网络包括两个智能体,选择每个智能体的状态空间
、
动作空间和奖励函数,并给出网络训练流程;步骤4,基于
MATD3
的双臂机器人协同运动控制,基于已训练的模型进行双臂机器人协同运动控制
。2.
根据权利要求1所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,所述步骤1中的双臂机器人系统模型,包括机械臂1的运动学模型:,机械臂2的运动学模型:,其中,表示机械臂
j
从第
i
‑1个连杆变换到第
i
个连杆所要经过的转移矩阵,表示第
j
个机械臂的第
i
个关节,
i=1,
…
,6
,
j=1,2
;机器人系统的动力学模型:,其中,分别为机械臂的关节角度
、
角速度
、
角加速度,分别代表机械臂的转动惯量矩阵
、
科氏力矩阵和重力矩阵,为机械臂各关节的控制力矩矩阵
。3.
根据权利要求1所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤2中,所述
MATD3
算法网络为:对每一个智能体分别建立一组策略
‑
评价网络,包括一个策略网络
、
一个目标策略网络
、
两个评价网络
、
两个目标评价网络,设计网络参数包括策略网络参数
、
目标策略网络参数
、
两个评价网络参数
、
两个目标评价网络参数;步骤
2.1.1
,对于第
n
个智能体,其策略网络会根据自身采样观察到的状态信息,根据策略选择
Y
个动作组成动作对:;步骤
2.1.2
,智能体采用
CEM
算法对所述动作对进行搜索,通过评价网络根据所有智能体的状态计算动作的价值,并且输出价值最高的动作,表示为:
,
,其中,为状态信息,为动作对,为动作的价值,
j
为动作的个数;步骤
2.1.3
,每个智能体执行当前动作并与环境交互后,得到下一状态,产生执行动作后的奖励值;智能体将经验样本存放到经验回放池
D
中,作为训练网络的数据
。4.
根据权利要求3所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤2中,所述
MATD3
算法网络参数更新规则为:步骤
2.2.1
,智能体从经验回放池
D
中选择若干样本进行训练,将其中第
n
个智能体的第
i
组样本记为:;步骤
2.2.2
,目标策略网络根据下一状态,产生下一动作,分别传入两个目标评价网络中,目标评价网络根据所有智能体的状态计算动作的价值
、
,智能体选择其中较小的动作价值计算目标动作价值;步骤
2.2.3
,基于计算评价网络的
Loss 函数,并根据时序差分法优化更新评价网络的网络参数;步骤
2.2.4
,使用更新后的评价网络对目标评价网络的网络参数进行软更新
。5.
根据权利要求4所述的基于
MATD3
算法的双臂机器人协同运动控制方法,其特征在于,步骤
2.2.2
中,所述目标动作价值表示为:,其中
r
为奖励值,
γ
为折扣因子,为下一状态,为下一动作,
Q
为动作的价值,为目标评价网络的网络参数,下标
i
表示第
i
组样本...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。