System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于MADDPG的无人机群对空拦截任务分配方法组成比例_技高网

一种基于MADDPG的无人机群对空拦截任务分配方法组成比例

技术编号:40677337 阅读:5 留言:0更新日期:2024-03-18 19:15
本发明专利技术公开了一种基于MADDPG的无人机群对空拦截任务分配方法,涉及多智能体协同决策技术领域,包括:首先针对无人机群对空拦截场景进行多智能体强化学习核心要素设计;然后在MADDPG算法的基础上引入无效动作掩膜,基于人类知识避免智能体进行无效探索,提高模型训练的效率,从而实现无人机群探测/跟踪/打击任务的自主协同分配;本发明专利技术,旨在建立面向无人机群对空拦截场景的探测/跟踪/拦截任务自主分配模型,在MADDPG算法的基础上引入无效动作掩膜,实现无人机之间的任务自主协调分配。

【技术实现步骤摘要】

本专利技术涉及多智能体协同决策,具体涉及一种基于maddpg的无人机群对空拦截任务分配方法。


技术介绍

1、本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。

2、随着各类型无人机的大量涌现,无人机群的平台数量也越来越多,如何实现无人机之间的协同任务自主分配,使得无人机群的任务完成率最高、任务成本最低,是其面临的一个关键问题。


技术实现思路

1、本专利技术的目的在于:面向无人机群对空拦截场景,提供了一种基于maddpg的无人机群对空拦截任务分配方法,旨在建立面向无人机群对空拦截场景的探测/跟踪/拦截任务自主分配模型,在maddpg算法的基础上引入无效动作掩膜,实现无人机之间的任务自主协调分配。

2、本专利技术的技术方案如下:

3、一种基于maddpg的无人机群对空拦截任务分配方法,包括:首先针对无人机群对空拦截场景进行多智能体强化学习核心要素设计;然后在maddpg算法的基础上引入无效动作掩膜,基于人类知识避免智能体进行无效探索,提高模型训练的效率,从而实现无人机群探测/跟踪/打击任务的自主协同分配。

4、进一步地,所述多智能体强化学习核心要素设计,包括:观测空间、全局状态空间、动作空间、回报函数四个方面。

5、进一步地,所述观测空间作为单个智能体策略网络的输入,用于提取影响拦截成功率和无人机存活率的关键局部信息,包括目标探测信息、导弹告警信息、无人机状态信息三个方面。

6、进一步地,所述全局状态空间作为无人机群价值网络的输入,用于判断无人机群任务分配策略的好坏,用于提取影响拦截成功率和无人机存活率的关键全局信息,包括目标状态信息、导弹状态信息、无人机群状态信息三个方面。

7、进一步地,所述动作空间作为每个智能体策略网络的输出,用于提取影响拦截成功率和无人机存活率的待分配任务类型,包括探测任务、跟踪任务、拦截任务、规避任务四种类型。

8、进一步地,所述回报函数作为引导多智能体强化学习模型训练的关键,用于提取影响拦截成功率和无人机存活率的关键事件,并根据关键事件的重要度进行加权求和计算回报值,包括发现目标、跟踪目标、拦截目标、规避导弹四个维度。

9、进一步地,所述目标探测信息,包括:目标数量、目标编号、目标距离、目标方位角、目标俯仰角五个方面;

10、所述导弹告警信息,包括:导弹数量、导弹编号、导弹距离、导弹方位角、导弹俯仰角五个方面;

11、所述无人机状态信息,包括:无人机编号、无人机剩余武器数量、无人机当前任务三个方面。

12、进一步地,所述目标状态信息,包括:目标数量、目标编号、目标经度、目标纬度、目标高度五个方面。

13、进一步地,所述导弹状态信息,包括:导弹数量、导弹编号、导弹经度、导弹纬度、导弹高度五个方面。

14、进一步地,所述无人机群状态信息,包括:无人机数量、无人机编号、无人机经度、无人机纬度、无人机高度、无人机剩余武器数量、无人机当前任务、无人机探测目标数量八个方面。

15、与现有的技术相比本专利技术的有益效果是:

16、一种基于maddpg的无人机群对空拦截任务分配方法,在maddpg算法的基础上,从观测空间、全局状态空间、动作空间、回报函数四个维度构建无人机群对空拦截任务分配多智能体强化学习模型,同时基于人类知识引入无效动作掩膜,避免智能体进行无效探索,提高模型训练的效率,实现无人机群探测/跟踪/打击任务的自主协同分配,从而提高无人机群的拦截成功率和平台存活率。

本文档来自技高网...

【技术保护点】

1.一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,包括:首先针对无人机群对空拦截场景进行多智能体强化学习核心要素设计;然后在MADDPG算法的基础上引入无效动作掩膜,基于人类知识避免智能体进行无效探索,提高模型训练的效率,从而实现无人机群探测/跟踪/打击任务的自主协同分配。

2.根据权利要求1所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述多智能体强化学习核心要素设计,包括:观测空间、全局状态空间、动作空间、回报函数四个方面。

3.根据权利要求2所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述观测空间作为单个智能体策略网络的输入,用于提取影响拦截成功率和无人机存活率的关键局部信息,包括目标探测信息、导弹告警信息、无人机状态信息三个方面。

4.根据权利要求2所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述全局状态空间作为无人机群价值网络的输入,用于判断无人机群任务分配策略的好坏,用于提取影响拦截成功率和无人机存活率的关键全局信息,包括目标状态信息、导弹状态信息、无人机群状态信息三个方面。

5.根据权利要求2所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述动作空间作为每个智能体策略网络的输出,用于提取影响拦截成功率和无人机存活率的待分配任务类型,包括探测任务、跟踪任务、拦截任务、规避任务四种类型。

6.根据权利要求2所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述回报函数作为引导多智能体强化学习模型训练的关键,用于提取影响拦截成功率和无人机存活率的关键事件,并根据关键事件的重要度进行加权求和计算回报值,包括发现目标、跟踪目标、拦截目标、规避导弹四个维度。

7.根据权利要求3所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述目标探测信息,包括:目标数量、目标编号、目标距离、目标方位角、目标俯仰角五个方面;

8.根据权利要求4所述的一种基于MADDPG的无人机群对空拦截任务分配方法,其特征在于,所述目标状态信息,包括:目标数量、目标编号、目标经度、目标纬度、目标高度五个方面;

...

【技术特征摘要】

1.一种基于maddpg的无人机群对空拦截任务分配方法,其特征在于,包括:首先针对无人机群对空拦截场景进行多智能体强化学习核心要素设计;然后在maddpg算法的基础上引入无效动作掩膜,基于人类知识避免智能体进行无效探索,提高模型训练的效率,从而实现无人机群探测/跟踪/打击任务的自主协同分配。

2.根据权利要求1所述的一种基于maddpg的无人机群对空拦截任务分配方法,其特征在于,所述多智能体强化学习核心要素设计,包括:观测空间、全局状态空间、动作空间、回报函数四个方面。

3.根据权利要求2所述的一种基于maddpg的无人机群对空拦截任务分配方法,其特征在于,所述观测空间作为单个智能体策略网络的输入,用于提取影响拦截成功率和无人机存活率的关键局部信息,包括目标探测信息、导弹告警信息、无人机状态信息三个方面。

4.根据权利要求2所述的一种基于maddpg的无人机群对空拦截任务分配方法,其特征在于,所述全局状态空间作为无人机群价值网络的输入,用于判断无人机群任务分配策略的好坏,用于提取影响拦截成功率和无人机存活率的关键全局信息,包括...

【专利技术属性】
技术研发人员:熊蓉玲段春怡杨庆冉华明文成馀周礼亮
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1