多智能体协同围捕方法及装置制造方法及图纸

技术编号：41348863 阅读：8 留言：0更新日期：2024-05-20 10:03

多智能体协同围捕方法及装置，涉及深度强化学习和多智能体技术领域。为解决现有技术中存在的，现有协同多智能体围捕的研究，没有考虑围捕任务的特殊性在解决围捕问题方面存在缺点的技术问题，本发明专利技术提供的技术方案为：多智能体协同围捕方法，方法包括：采集智能体逃跑策略、演员网络与中心评论员网络的观测空间、奖励函数和围捕任务完整条件的步骤；构建包括具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络的步骤；对所述演员网络和评论员网络进行预热的步骤；根据所述逃跑策略和奖励函数，更新所述演员网络和评论员网络的步骤；重复更新所述评论员网络，得到训练完成的演员网络的步骤。可以应用于多智能体协同围捕任务工作中。

全部详细技术资料下载

【技术实现步骤摘要】

涉及深度强化学习和多智能体。

技术介绍

1、作为复杂系统问题中的一个经典案例，多智能体围捕涉及众多智能主体集体协同行动，目的是追踪并截获动态目标。这项技术以其高智能化水平、灵活多样的战术策略、卓越的团队协作能力及较低的运作成本而受到重视。无论是用于城市安全、边境巡逻、重大活动的监控等民用领域，还是用于执行侦查、监视和打击等军事任务，多智能体围捕都展现出了其宽广的应用前景和重要价值。

2、协同多智能体围捕的核心是追逐与逃避的策略博弈，近年来，该领域已近成为了多智能体系统和智体车辆技术研究的焦点，并广泛涉及无人机、自动驾驶汽车、无人船只和无人潜水器等多种平台。在自然界中，群体性的围捕行为十分常见，其主要目标是让捕食者能够在最短的时间里捕获到猎物。通过战略性的团队合作，捕食者可以有效地围堵猎物或者利用周围的环境障碍来限制猎物的逃逸路线。目前，解决这一问题的主流方法包括数值求解方法、仿生策略、基于力的方法、最优控制，以及基于学习的方法。其中，基于学习的方法通过挖掘由环境交互得到的数据特征，提升智能体的智能化水平，进而实现逃跑目标的围捕，这标志着从经验中学习和适应的一大进步。

3、作为机器学习领域中关注控制和规划问题的一个分支，强化学习借助深度学习的发展，通过使用神经网络作为高维数据处理的函数逼近器，演变为深度强化学习。这种技术不单为解决复杂的多智能体围捕等任务提供了有效的解决方案，而且还推动了新的研究方向和应用场景的开发。当前，多智能体强化学习(multi-agent reinforcement learning

4、现有技术中，有研究《multi-agent deep reinforcement learning fordecentralized continuous cooperative control》，基于多智能体深度强化学习的方法，用于解决分布式连续协同控制问题。该方法使用了深度确定性策略梯度(deepdeterministic policy gradient,ddpg)框架，并且也使用了目标预测网络和成员状态编码器来提高算法的效率和智能水平。然而，该方法没有考虑围捕任务的特殊性，因此在解决围捕问题方面存在一定的缺点。

技术实现思路

1、为解决现有技术中存在的，现有协同多智能体围捕的研究，没有考虑围捕任务的特殊性在解决围捕问题方面存在缺点的技术问题，本专利技术提供的技术方案为：

2、多智能体协同围捕方法，所述方法包括：

3、采集智能体逃跑策略、演员网络与中心评论员网络的观测空间、奖励函数和围捕任务完整条件的步骤；

4、构建包括一个具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络的步骤；

5、对所述演员网络和评论员网络进行预热的步骤；

6、根据所述逃跑策略和奖励函数，更新所述演员网络和评论员网络的步骤；

7、重复更新所述评论员网络，得到训练完成的演员网络的步骤。

8、进一步，提供一个优选实施方式，所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过maddpg架构实现。

9、进一步，提供一个优选实施方式，重复更新所述评论员网络直至达到预设终止条件，以得到训练完成的演员网络。

10、进一步，提供一个优选实施方式，还包括：在每次更新所述演员网络和评论员网络后，对所述演员网络和评论员网络参数进行软更新的步骤。

11、进一步，提供一个优选实施方式，所述预热包括：智能体与环境交互和收集数据的步骤。

12、进一步，提供一个优选实施方式，具体为：收集环境状态、目标状态、动作和奖励数据。

13、进一步，提供一个优选实施方式，境状态包括围捕智能体的位置和速度，目标状态是逃跑目标的位置和速度，动作是围捕智能体根据当前状态执行的动作，奖励是根据围捕任务的完成情况给予的奖励。

14、多智能体协同围捕装置，所述装置包括：

15、采集智能体逃跑策略、演员网络与中心评论员网络的观测空间、奖励函数和围捕任务完整条件的模块；

16、构建包括一个具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络的模块；

17、对所述演员网络和评论员网络进行预热的模块；

18、根据所述逃跑策略和奖励函数，更新所述演员网络和评论员网络的模块；

19、重复更新所述评论员网络，得到训练完成的演员网络的模块。

20、计算机储存介质，用于储存计算机程序，当所述计算机程序被计算机读取时，所述计算机执行所述的方法。

21、计算机，包括处理器和储存介质，当所述处理器读取所述储存介质中储存的计算机程序时，所述计算机执行所述的方法。

22、与现有技术相比，本专利技术提供的技术方案的有益之处在于：

23、本专利技术提供的多智能体协同围捕方法，通过与经典的maddpg算法在simple_tag场景中进行对比实验来验证。实验结果表明，本专利技术的方法在围捕任务的执行效率和成功率方面都取得了显著的提升。

24、本专利技术提供的多智能体协同围捕方法，采用了目标预测网络和成员状态编码器来提升多智能体系统的智能化水平。

25、本专利技术提供的多智能体协同围捕方法，目标预测网络通过历史数据对目标未来状态进行预测，帮助智能体更加高效地执行围捕任务。

26、本专利技术提供的多智能体协同围捕方法，成员状态编码器则通过提取成员信息中的有用特征，增强了评论员网络评估给定状态和动作的能力，从而指导演员网络的训练。

27、与经典的maddpg算法相比，本专利技术提供的多智能体协同围捕方法，通过预测目标未来状态和提取成员状态的有用特征，智能体能够更加准确地判断目标的位置和速度，从而更好地执行围捕任务，在围捕任务的执行效率和成功率方面都取得了显著的提升。

28、本专利技术提供的多智能体协同围捕方法，可以应用于多智能体协同围捕任务，例如城市安全、边境巡逻、重大活动的监控等民用领域，以及执行侦查、监视和打击等军事任务。

本文档来自技高网...

【技术保护点】

1.多智能体协同围捕方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多智能体协同围捕方法，其特征在于，所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过MADDPG架构实现。

3.根据权利要求1所述的多智能体协同围捕方法，其特征在于，重复更新所述评论员网络直至达到预设终止条件，以得到训练完成的演员网络。

4.根据权利要求1所述的多智能体协同围捕方法，其特征在于，还包括：在每次更新所述演员网络和评论员网络后，对所述演员网络和评论员网络参数进行软更新的步骤。

5.根据权利要求1所述的多智能体协同围捕方法，其特征在于，所述预热包括：智能体与环境交互和收集数据的步骤。

6.根据权利要求5所述的多智能体协同围捕方法，其特征在于，具体为：收集环境状态、目标状态、动作和奖励数据。

7.根据权利要求6所述的多智能体协同围捕方法，其特征在于，境状态包括围捕智能体的位置和速度，目标状态是逃跑目标的位置和速度，动作是围捕智能体根据当前状态执行的动作，奖励是根据围捕任务的完成情况给予的奖励。

<...

【技术特征摘要】

1.多智能体协同围捕方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多智能体协同围捕方法，其特征在于，所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过maddpg架构实现。

3.根据权利要求1所述的多智能体协同围捕方法，其特征在于，重复更新所述评论员网络直至达到预设终止条件，以得到训练完成的演员网络。

5.根据权利要求1所述的多智能体协同围捕方法，其特征在于，所述预热包括：智能体与环境交互和收集数据的步骤。

6.根...

【专利技术属性】
技术研发人员：李一兵，黄雨杰，孙骞，叶方，田园，王芮，徐定西，王杰恪，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人