当前位置: 首页 > 专利查询>同济大学专利>正文

一种多机器人任务分配方法、电子设备及介质组成比例

技术编号:38836130 阅读:10 留言:0更新日期:2023-09-17 09:52
本发明专利技术涉及一种多机器人任务分配方法,包括如下步骤:分别对N个移动机器人的对抗能力和完成M个任务所需的对抗能力进行数学描述;根据各任务所需的对抗能力和各移动机器人的对抗能力,确定各移动机器人执行各任务时需要满足的约束条件,以最小化执行任务的机器人为团队目标,构建评价函数,进而构建多移动机器人任务分配问题;基于马尔可夫决策过程,对多移动机器人任务分配问题进行建模;基于Double

【技术实现步骤摘要】
一种多机器人任务分配方法、电子设备及介质


[0001]本专利技术涉及多机器人决策
,尤其是涉及一种多机器人任务分配方法、电子设备及介质。

技术介绍

[0002]近年来,多机器人任务分配问题(Multi

Robot Task Allocation,MRTA)引起了广泛关注。MRTA问题可以看作是一个最优分配问题。其目标是将一组机器人优化分配到一组任务中,从而在一组约束条件下优化整个系统的性能。常见的MRTA方法包括基于市场的方法和基于优化的方法。基于市场的方法基于合同网协议,采用拍卖的方式分配任务。Choi提出了两个去中心化拍卖算法CBAA和CBBA来协调一个自动驾驶车队。Zhang采用随机聚类拍卖的方法,解决了异构团队最优任务分配问题。基于优化的方法关注于从一组可行解中寻找最优解。例如,Nedjah提出了基于粒子群(PSO)的分布式动态任务分配算法;Pendharkar提出了一种求解约束任务分配问题的基于蚁群算法(ACO)的启发式算法。然而,它们通常无法扩展到大规模系统,因为可能的组合数量会随着机器人或任务数量的增加而呈指数级增长。
[0003]深度学习的最新进展已经在多机器人任务分配、水产养殖、热过程、能源系统、移动网络和车辆等现实应用领域取得了突破。深度学习适用于各个领域,因为可以编码现实世界中复杂知识的高维表示。深度学习的优势在于,它的特性是端到端的学习,而不是使用人工设计规则的特性。然而,基于深度学习的方法需要大量的标记数据,需要预先设计分配规则,且现有技术存在机器人损耗和资源浪费的问题。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种多机器人任务分配方法、电子设备及介质,且该专利技术可以避免机器人的损耗和资源浪费,可以从策略的不断迭代中学习分配策略,能够提交分配效率。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]根据本专利技术的第一个方面,本实施例提供一种多机器人任务分配方法,包括如下步骤:
[0007]分别对N个移动机器人的对抗能力和完成M个任务所需的对抗能力进行数学描述;
[0008]根据各任务所需的对抗能力和各移动机器人的对抗能力,确定各移动机器人执行各任务时需要满足的约束条件,以最小化执行任务的机器人为团队目标,构建评价函数,进而构建多移动机器人任务分配问题;
[0009]基于马尔可夫决策过程,对多移动机器人任务分配问题进行建模,确定马尔可夫决策过程中的状态空间、动作空间和奖励函数;
[0010]基于Double

DQN算法,构建并训练全连接神经网络,求解多移动机器人任务分配问题,完成多移动机器人的任务分配。
[0011]优选地,所述移动机器人的对抗能力和完成每个任务所需的对抗能力均包括攻击能力、打击能力和电子干扰能力,N个所述移动机器人分为t种类型,每种所述类型的机器人的对抗能力的大小不同,完成每个任务所需的对抗能力的大小不同。
[0012]优选地,当一组N个移动机器人执行一项任务时,需要满足的约束条件包括:
[0013][0014][0015][0016]式中,N
j
是执行任务T
j
的机器人总数,分别表示t类型第i个机器人的攻击能力、电子干扰能力和打击能力,A(T
j
)、E(T
j
)和分别为完成任务T
j
的攻击能力、电子干扰能力和打击能力。
[0017]优选地,描述所述评价函数的公式为:
[0018][0019]式中,θ为人为设定的阈值。
[0020]优选地,马尔可夫决策过程中的状态空间为当前要执行的任务,状态空间的各状态向量为完成每个任务所需的能力向量,每个任务的状态向量的初始值由用户设置,当移动机器人加入到完成该任务的队列中时,更新状态向量;马尔可夫决策过程中动作空间的各动作向量为每种类型机器人的能力向量。
[0021]优选地,当移动机器人采取的行动满足各移动机器人执行各任务时需要满足的约束条件和评价函数,则移动机器人获得正奖励r,当移动机器人采取的行动不满足各移动机器人执行各任务时需要满足的约束条件,则移动机器人获得负奖励

r,当移动机器人采取的行动满足各移动机器人执行各任务时需要满足的约束条件,但不满足评价函数,则移动机器人获得奖励值为0。
[0022]优选地,基于Double

DQN算法,构建并训练全连接神经网络的过程为:
[0023](1)初始化经验池D,随机初始化评估网络参数ω,随机化初始目标网络ω


[0024](2)初始状态s0,并令迭代次数k=0;
[0025](3)根据ε

贪婪策略选择动作a;
[0026](4)选择a种类的机器人,观察奖励值r和次状态s

,并向经验池D中存储经验(s,a,r,s

);
[0027](5)从经验池D中采样一定量的经验训练评估网络并更新目标网络参数;
[0028](6)令k=k+1,回到(2),直至权重收敛。
[0029]优选地,基于Double

DQN算法的计算目标值的公式为:
[0030]y
t
=r
t+1
+γq(s
t+1
,argmaxq(s
t+1
,a;ω);ω

)
[0031]其中,y
t
表示目标值,γ表示折扣因子,ω表示评估网络参数,ω

表示目标网络参数。
[0032]根据本专利技术的第二个方面,本实施例提供一种电子设备,其特征在于,包括:
[0033]一个或多个处理器;存储器;和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的多机器人任务分配方法的指令。
[0034]根据本专利技术的第三个方面,本实施例提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的多机器人任务分配方法的指令。
[0035]与现有技术相比,本专利技术具有以如下有益效果:
[0036](1)本专利技术提供的一种多机器人任务分配方法,通过采用马尔可夫的决策过程对任务分配问题进行建模,并利用Double

DQN算法消除对Q值的过高估计,提高神经网络训练学习的效率,可以从策略的不断迭代中学习分配策略,从而更好地得到任务分配策略。
[0037](2)本专利技术提供的一种多机器人任务分配方法,为了使得最少的移动机器人去执行对抗目标,在奖励值的设计中考虑了机器人的安全性和数量限制,避免了机器人的损耗和资源浪费。
附图说明
[0038]图1为本实施例提供的一种多机器人任务分配方法的流程示意图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多机器人任务分配方法,其特征在于,包括如下步骤:分别对N个移动机器人的对抗能力和完成M个任务所需的对抗能力进行数学描述;根据各任务所需的对抗能力和各移动机器人的对抗能力,确定各移动机器人执行各任务时需要满足的约束条件,以最小化执行任务的机器人为团队目标,构建评价函数,进而构建多移动机器人任务分配问题;基于马尔可夫决策过程,对多移动机器人任务分配问题进行建模,确定马尔可夫决策过程中的状态空间、动作空间和奖励函数;基于Double

DQN算法,构建并训练全连接神经网络,求解多移动机器人任务分配问题,完成多移动机器人的任务分配。2.根据权利要求1所述的一种多机器人任务分配方法,其特征在于,所述移动机器人的对抗能力和完成每个任务所需的对抗能力均包括攻击能力、打击能力和电子干扰能力,N个所述移动机器人分为t种类型,每种所述类型的机器人的对抗能力的大小不同,完成每个任务所需的对抗能力的大小不同。3.根据权利要求2所述的一种多机器人任务分配方法,其特征在于,当一组N个移动机器人执行一项任务时,需要满足的约束条件包括:器人执行一项任务时,需要满足的约束条件包括:器人执行一项任务时,需要满足的约束条件包括:式中,N
j
是执行任务T
j
的机器人总数,分别表示t类型第i个机器人的攻击能力、电子干扰能力和打击能力,A(T
j
)、E(T
j
)和分别为完成任务T
j
的攻击能力、电子干扰能力和打击能力。4.根据权利要求3所述的一种多机器人任务分配方法,其特征在于,描述所述评价函数的公式为:式中,θ为人为设定的阈值。5.根据权利要求1所述的一种多机器人任务分配方法,其特征在于,马尔可夫决策过程中的状态空间为当前要执行的任务,状态空间的各状态向量为完成每个任务所需的能力向量,每个任务的状态向量的初始值由用户设置,当移动机器人加入到完成该任务的队列中时,更新状态向量;马尔可夫决策过程中动作空间的各动作向量为每种类型机器人的能力向量。6.根据权利要求1所述的一种多机器人任务分配方法,其特征在于...

【专利技术属性】
技术研发人员:张皓黄闯王祝萍
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1