一种多机器人搜索方法及系统技术方案

技术编号:36035510 阅读:27 留言:0更新日期:2022-12-21 10:39
本发明专利技术公开了一种多机器人搜索方法及系统,应用于控制端,所述多机器人搜索方法包括:S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;S5:控制所有机器人根据各自当前运行策略执行搜索。本发明专利技术能够解决现有技术中目标搜索计算复杂,目标单一且效率低的问题。目标单一且效率低的问题。目标单一且效率低的问题。

【技术实现步骤摘要】
一种多机器人搜索方法及系统


[0001]本专利技术涉及目标搜索
,具体涉及一种多机器人搜索方法及系统。

技术介绍

[0002]在过去的几十年里,多机器人搜索非对抗性的移动目标一直是一个热门的研究课题,获得了学术届和工业界的许多关注。一方面,多机器人搜索问题可以被认为是许多实际应用的潜在解决方案。例如,在危险环境中的搜索和救援,森林火灾检测。另一方面,多机器人搜索也是许多基础研究的测试平台,如博弈论、多智能体强化学习和多机器人合作问题。因此多机器人搜索问题是个多学科交叉的复杂问题,其解决方案也多种多样。
[0003]传统的多机器人搜索一般关注其最终捕获目标的平均时间,经典的解决方法一般都是基于规划的,其做法是将搜索问题转换为数学规划问题,但是其随着环境的增大以及机器人数量的增加,其计算量呈指数级增长,十分消耗计算资源,并且很难满足一些具有实时响应的需求的现实任务。除了数学规划法外,多智能体强化学习也是近几年十分热门的方法,但是其本身具有训练时间才,训练不稳定的属性,导致在大规模场景下难以训练,并且,大部分的强化学习方法都依赖于机器人本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多机器人搜索方法,其特征在于,应用于控制端,所述多机器人搜索方法包括:S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;S5:控制所有机器人根据各自当前运行策略执行搜索。2.根据权利要求1所述的多机器人搜索方法,其特征在于,所述步骤S3中,利用集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。3.根据权利要求2所述的多机器人搜索方法,其特征在于,所述步骤S3包括:S31:获取目标机器人目标时刻的行为和目标时刻之前的历史观测值;S32:根据所述目标机器人目标时刻的行为和目标时刻之前的历史观测值,得到目标机器人的集中训练式的值分布贝尔曼算子;S33:利用具有记忆效果的神经网络对所述目标机器人的集中训练式的值分布贝尔曼算子进行求解,得到所述目标机器人下一时刻的概率密度函数值;S34:重复步骤S31

S33,直到得到所有机器人下一时刻的概率密度函数值;S35:根据所有机器人下一时刻的概率密度函数和对所有机器人下一时刻的概率密度函数值进行分解,得到分解结果;S36:利用所述分解结果对各所述机器人的捕获时间进行更新,得到更新后的捕获时间;S37:根据所述更新后的时间和各所述机器人的分布,得到各所述机器人更新后的运行策略。4.根据权利要求3所述的多机器人搜索方法,其特征在于,所述步骤S32中,所述目标机器人的集中训练式的值分布贝尔曼算子为:其中,表示目标机器人t时刻的概率密度函数,a
t
表示目标机器人t时刻的行为,:=表示等价于,o
≤t
表示目标机器人t时刻之前的历史联合观测值,r
t
表示t时刻交互环境给的反馈,表示目标机器人t+1时刻的概率密度函数,o
≤t+1
表示目标机器人t+1时刻之前的历史联合观测值,a
t+1
表示目标机器人t+1时刻的行为。5.根据权利要求1

4中任意一项所述的多机器人搜索方法,其特征在于,在所述步骤S1之前,所...

【专利技术属性】
技术研发人员:郭宏亮陈启明盛文达郑鑫
申请(专利权)人:成都朴为科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1