一种多智能体协同控制的机械臂自动装填运动规划方法技术

技术编号:37124484 阅读:18 留言:0更新日期:2023-04-01 05:20
本发明专利技术公开了一种多智能体协同控制的机械臂自动装填运动规划方法,包括:基于角色分解机械臂装填任务,划分多智能体角色;每个智能体获取观测信息,独立做随机抽样,控制机械臂执行选中的动作;每个智能体向中央控制器传输观测信息;中央控制器分别让价值网络与目标网络进行预测;中央控制器计算TD目标和TD误差,并将TD误差广播到所有智能体;中央控制器更新价值网络与目标网络参数;每个智能体更新策略网络参数;不断收集观测信息与训练直至迭代次数达到预定值;使用去中心化决策完成机械臂自动装填运动规划。本发明专利技术具有通用性强、智能体训练快、自动化程度高的优点,可以满足智能体联合状态动作搜索空间过大条件下的快速训练需求。训练需求。训练需求。

【技术实现步骤摘要】
一种多智能体协同控制的机械臂自动装填运动规划方法


[0001]本专利技术属于机械臂自动装填运动规划领域,具体涉及一种多智能体协同控制的机械臂自动装填运动规划方法。

技术介绍

[0002]与传统人工装填方式不同,机械臂自动装填技术能大大缩短装填周期,解放人力。现有的机械臂自动装填技术主要使用视觉引导实现,该方法容易受到环境的干扰影响位姿解算的精度,从而降低自动装填的成功率。
[0003]随着强化学习的不断发展,其在机器人控制等领域的作用也越来越大。相比监督学习而言,强化学习更关注序列问题,考虑长期回报。这种思想对于很多问题找到最优解非常关键,也使得用强化学习解决机器人决策与规划任务成为可能。
[0004]而仅仅依靠传统的强化学习方法实现自动装填虽能在训练完成后提高装填成功率,却由于机械臂自动装填控制与规划拥有巨大的连续动作空间和连续状态空间,使得智能体的训练极为困难。

技术实现思路

[0005]为了克服上述传统框架的缺点,本专利技术提供了一种多智能体协同控制的机械臂自动装填运动规划方法,提出了新的机械臂自动装填多智能体角色划分与训练框架,解决了仅使用传统的强化学习方法实现自动装填时,由于过于庞大的动作空间和状态空间使得智能体的训练极为困难的问题,并提升了自动装填智能体训练的成功率。
[0006]为达到上述目的,本专利技术采用如下技术方案来实现的:
[0007]一种多智能体协同控制的机械臂自动装填运动规划方法,包括以下步骤:
[0008]步骤1)基于角色分解机械臂装填任务,划分多智能体角色;
[0009]步骤2)每个智能体i与环境交互,获取观测信息,独立做随机抽样,控制机械臂执行选中的动作;
[0010]步骤3)每个智能体i向中央控制器传输观测信息;
[0011]步骤4)中央控制器分别让价值网络与目标网络进行预测;
[0012]步骤5)中央控制器计算TD目标和TD误差,并将TD误差广播到所有智能体;
[0013]步骤6)中央控制器更新价值网络与目标网络参数;
[0014]步骤7)每个智能体i更新策略网络参数;
[0015]步骤8)重复步骤2)至步骤7),当迭代次数达到预定值时,停止收集观测信息和训练;
[0016]步骤9)模型训练完毕后,使用去中心化决策完成机械臂自动装填运动规划。
[0017]本专利技术进一步的改进在于,所述步骤1),基于角色分解机械臂装填任务,划分多智能体角色的方法为:
[0018]步骤1.1),使用RODE框架学习动作编码器f
e
,该编码器由θ
e
参数化,将one

hot动作
映射到d维表示空间;
[0019]步骤1.2),使用公式z
a
=f
e
(a;θ
e
)计算z
a
,其中z
a
表示动作a在d维空间中的表示;
[0020]步骤1.3),使用K

means算法根据动作表征对动作进行聚类;
[0021]步骤1.4),将每个角色的动作空间设置为包含一个聚类;
[0022]步骤1.5),根据聚类结果使用角色分类器为智能体赋予角色。
[0023]本专利技术进一步的改进在于,所述步骤2),每个智能体i与环境交互,获取观测信息,独立做随机抽样,控制机械臂执行选中的动作的方法为:
[0024]步骤2.1),使用位置传感器获取机械臂位姿与机械臂位姿,使用速度传感器和加速度传感器获取机械臂速度与加速度,作为当前观测信息
[0025]步骤2.2),对当前观测信息进行one

hot编码;
[0026]步骤2.3),将观测信息输入到各智能体对应的策略神经网络中π
i
中;
[0027]步骤2.4),每个智能体i根据以下公式独立做随机抽样,得到各智能体的动作分布:
[0028][0029]步骤2.5),控制机械臂执行选中的动作,并再次使用步骤2.1)中方法获取执行动作后的观测信息
[0030]本专利技术进一步的改进在于,所述步骤3),每个智能体i向中央控制器传输观测信息的方法为:
[0031]步骤3.1),每个智能体i对执行动作后观测信息进行one

hot编码;
[0032]步骤3.2),每个智能体i向中央控制器传输观测信息和
[0033]步骤3.3),中央控制器得到状态和
[0034]本专利技术进一步的改进在于,所述步骤4),中央控制器分别让价值网络与目标网络进行预测的方法为:
[0035]步骤4.1),中央控制器根据以下公式让价值网络做预测:
[0036][0037]步骤4.2),中央控制器根据以下公式让目标网络做预测:
[0038][0039]本专利技术进一步的改进在于,所述步骤5),中央控制器计算TD目标和TD误差,并将TD误差广播到所有智能体的方法为:
[0040]步骤5.1),中央控制器根据以下公式计算奖励函数:
[0041][0042]其中,c
j
表示机械臂的部件j的控制信号;
[0043]d
f
,d
r
分别表示机械臂前触发器和后触发器到机械臂对应目标触发器的距离;
[0044]f(d
f
,d
r
)=β
×
(d
m

max(d
f
,d
r
)),β为距离奖励系数,d
m
为距离最大值;
[0045]ε
j

d
分别表示机械臂的部件j的控制信号阈值和判断完成机械臂装填的阈值;
[0046]步骤5.2),中央控制器根据以下公式计算TD目标:
[0047][0048]步骤5.3),中央控制器根据以下公式计算TD误差:
[0049][0050]步骤5.4),中央控制器将TD误差广播到所有智能体。
[0051]本专利技术进一步的改进在于,所述步骤6),中央控制器更新价值网络与目标网络参数的方法为:
[0052]步骤6.1)中央控制器根据以下公式更新价值网络参数:
[0053][0054]步骤6.2)中央控制器根据以下公式更新目标网络参数:
[0055][0056]本专利技术进一步的改进在于,所述步骤7),每个智能体i更新策略网络参数的方法为:
[0057]步骤7.1)每个智能体i各自接收中央控制器广播的TD误差;
[0058]步骤7.2)每个智能体i根据以下公式更新各自的策略网络参数:
[0059][0060]本专利技术进一步的改进在于,所述步骤9),模型训练完毕后,使用去中心化决策完成机械臂自动装填运动规划的方法为:
[0061]步骤9.1)使用位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体协同控制的机械臂自动装填运动规划方法,其特征在于,包括以下步骤:步骤1)基于角色分解机械臂装填任务,划分多智能体角色;步骤2)每个智能体i与环境交互,获取观测信息,独立做随机抽样,控制机械臂执行选中的动作;步骤3)每个智能体i向中央控制器传输观测信息;步骤4)中央控制器分别让价值网络与目标网络进行预测;步骤5)中央控制器计算TD目标和TD误差,并将TD误差广播到所有智能体;步骤6)中央控制器更新价值网络与目标网络参数;步骤7)每个智能体i更新策略网络参数;步骤8)重复步骤2)至步骤7),当迭代次数达到预定值时,停止收集观测信息和训练;步骤9)模型训练完毕后,使用去中心化决策完成机械臂自动装填运动规划。2.根据权利要求1所述的一种多智能体协同控制的机械臂自动装填运动规划方法,其特征在于,所述步骤1),基于角色分解机械臂装填任务,划分多智能体角色的方法为:步骤1.1),使用RODE框架学习动作编码器f
e
,该编码器由θ
e
参数化,将one

hot动作映射到d维表示空间;步骤1.2),使用公式z
a
=f
e
(a;θ
e
)计算z
a
,其中z
a
表示动作a在d维空间中的表示;步骤1.3),使用K

means算法根据动作表征对动作进行聚类;步骤1.4),将每个角色的动作空间设置为包含一个聚类;步骤1.5),根据聚类结果使用角色分类器为智能体赋予角色。3.根据权利要求1所述的一种多智能体协同控制的机械臂自动装填运动规划方法,其特征在于,所述步骤2),每个智能体i与环境交互,获取观测信息,独立做随机抽样,控制机械臂执行选中的动作的方法为:步骤2.1),使用位置传感器获取机械臂位姿与机械臂位姿,使用速度传感器和加速度传感器获取机械臂速度与加速度,作为当前观测信息步骤2.2),对当前观测信息进行one

hot编码;步骤2.3),将观测信息输入到各智能体对应的策略神经网络中π
i
中;步骤2.4),每个智能体i根据以下公式独立做随机抽样,得到各智能体的动作分布:步骤2.5),控制机械臂执行选中的动作,并再次使用步骤2.1)中方法获取执行动作后的观测信息4.根据权利要求3所述的一种多智能体协同控制的机械臂自动装填运动规划方法,其特征在于,所述步骤3),每个智能体i向中央控制器传输观测信息的方法为:步骤3.1),每个智能体i对执行动作后观测信息进行one

hot编码;步骤3.2),每个智能体i向中央控制器传输观测信息和步骤3.3),中央控制器得到状态和
5.根...

【专利技术属性】
技术研发人员:郑帅杨子桐
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1