具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统技术方案

技术编号：41370956 阅读：43 留言：0更新日期：2024-05-20 10:16

本发明专利技术属于多智能体协同围捕领域，提供一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。步骤1：初始化环境信息，确定智能体逃跑策略，确定演员网络与中心评论员网络的观测空间，构造奖励函数，构造围捕任务完成条件；步骤2：构建MADDPG架构，其中包括一个具有时间特征提取机制的中心评论员网络以及演员网络；步骤3：智能体与环境信息交互，收集数据，进行预热；步骤4：更新神经网络参数；步骤5：重复步骤4直到完成训练回合数，最终得到训练完成的演员网络，以实现多智能体协同围捕。对于围捕任务来说，准确提取时间特征至关重要，它不仅能显著提升围捕的成功率，也是推进多智能体系统智能化水平的关键。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多智能体协同围捕，具体涉及一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。

技术介绍

1、多智能体围捕作为一个典型的复杂系统问题，涉及多个智能化主体(如无人机、机器人或软件代理)协同合作以追踪和捕获移动目标。由于具有较高的智能化程度、灵活多变的作战策略、卓越的协同作业能力以及较低的运行成本，多智能体围捕在执行城市安全、边境巡逻、重大活动监控等民用任务以及执行侦察、监视、打击等军事任务中具有重要的应用前景。

2、多智能体协同围捕问题的核心在于追逃博弈，这一领域近年来已成为机器人技术研究的热点，覆盖了无人机、地面机器人、水下航行器等多种类型。在自然界中，合作追逐是一种普遍现象，其目的是使捕食者能在最短时间内捕获猎物。通过策略性的合作，捕食者能有效地包围猎物或利用环境障碍物限制猎物的逃逸路径。目前，解决这一问题的主流方法包括基于环境信息的数值求解、生物启发式策略、基于力的交互模型、控制与优化技术，以及基于学习的方法。其中，基于学习的方法特别引人注目，它通过数据分析而非直接解析来寻找解决方案，标...

【技术保护点】

1.一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法，其特征在于，所述多智能体协同围捕方法具体包括以下步骤：

2.根据权利要求1所述的深度强化学习多智能体协同围捕方法，其特征在于，所述步骤1中的观测空间具体为，

3.根据权利要求2所述的深度强化学习多智能体协同围捕方法，其特征在于，所述步骤1中构造的奖励函数具体为，

4.根据权利要求1所述的深度强化学习多智能体协同围捕方法，其特征在于，所述步骤2构建MADDPG架构具体为，首先确定参数含义；其次分别构建演员网络和中心评论员网络，最后确定训练超参数，并构建数据缓存区。