【技术实现步骤摘要】
本专利技术属于多智能体协同围捕,具体涉及一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。
技术介绍
1、多智能体围捕作为一个典型的复杂系统问题,涉及多个智能化主体(如无人机、机器人或软件代理)协同合作以追踪和捕获移动目标。由于具有较高的智能化程度、灵活多变的作战策略、卓越的协同作业能力以及较低的运行成本,多智能体围捕在执行城市安全、边境巡逻、重大活动监控等民用任务以及执行侦察、监视、打击等军事任务中具有重要的应用前景。
2、多智能体协同围捕问题的核心在于追逃博弈,这一领域近年来已成为机器人技术研究的热点,覆盖了无人机、地面机器人、水下航行器等多种类型。在自然界中,合作追逐是一种普遍现象,其目的是使捕食者能在最短时间内捕获猎物。通过策略性的合作,捕食者能有效地包围猎物或利用环境障碍物限制猎物的逃逸路径。目前,解决这一问题的主流方法包括基于环境信息的数值求解、生物启发式策略、基于力的交互模型、控制与优化技术,以及基于学习的方法。其中,基于学习的方法特别引人注目,它通过数据分析而非直接解析来寻找解决方案,标
...【技术保护点】
1.一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法,其特征在于,所述多智能体协同围捕方法具体包括以下步骤:
2.根据权利要求1所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤1中的观测空间具体为,
3.根据权利要求2所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤1中构造的奖励函数具体为,
4.根据权利要求1所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤2构建MADDPG架构具体为,首先确定参数含义;其次分别构建演员网络和中心评论员网络,最后确定训练超参数,并构建数据缓存区。
...【技术特征摘要】
1.一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法,其特征在于,所述多智能体协同围捕方法具体包括以下步骤:
2.根据权利要求1所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤1中的观测空间具体为,
3.根据权利要求2所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤1中构造的奖励函数具体为,
4.根据权利要求1所述的深度强化学习多智能体协同围捕方法,其特征在于,所述步骤2构建maddpg架构具体为,首先确定参数含义;其次分别构建演员网络和中心评论员网络,最后确定训练超参数,并构建数据缓存区。
5.根据权利要求4所述的深度强化学习多智能体协同围捕方法,其特征在于,确定参数含义具体为,分别定义第i个智能体的演员网络和目标演员网络为和其中θ和θ′分别是演员网络和目标演员网...
【专利技术属性】
技术研发人员:李一兵,黄雨杰,孙骞,叶方,田园,王杰恪,徐定西,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。