基于策略集合MADDPG多无人机协同攻防对抗方法技术

技术编号：31169776 阅读：25 留言：0更新日期：2021-12-04 13:31

本发明专利技术公布了基于策略集合MADDPG多无人机协同攻防对抗方法，所述方法首先构建多无人机协同攻防对抗作战任务环境；其次建立多无人机系统的联合状态空间和联合动作空间；然后，针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数，包括进攻方无人机和防御方无人机两个部分；接着，对基于策略集合MADDPG网络进行训练；最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明专利技术对MADDPG算法进行改进，设计基于群体目标的奖赏函数，引导协同攻防策略的学习，使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题，攻防效率更高，从而赋予了无人机更好的协同攻防对抗能力。予了无人机更好的协同攻防对抗能力。予了无人机更好的协同攻防对抗能力。

全部详细技术资料下载

【技术实现步骤摘要】
基于策略集合MADDPG多无人机协同攻防对抗方法

[0001]本专利技术属于空战决策
，具体为基于策略集合MADDPG多无人机协同攻防对抗方法。
技术背景
[0002]随着计算机技术的不断进步，强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中，一个无人机学习的同时，其他无人机也在进行学习，他们所执行的动作作用于环境，使当前的学习环境发生变化，这将使得多无人机系统不满足MDP模型，那么强化学习也就不能直接运用到多无人机系统。为解决此问题，部分算法采用状态预测的强化学习方法解决多无人机智能决策问题，各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测，得到下一时刻其他无人机的预测状态，根据自身状态与其他无人机下一时刻的预测状态进行决策。但是，该方法的好坏很大程度依赖于状态预测的准确性，因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出，迅速成为决策领域研究热点，主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题，在状态或者动作空间连续的情况下，无法很好地估计出各个状态
‑
动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)及其改进算法，该算法利用策略网络直接输出动作，可以应对连续动作的输出，但存在一个重要的问题，由于每个智能体...

【技术保护点】

【技术特征摘要】
1.基于策略集合MADDPG多无人机协同攻防对抗方法，其特征在于，该方法包括以下步骤：步骤(1)建立多无人机协同攻防对抗作战示意图，包括任务目标、隐蔽区域和障碍物位置，以及进攻无人机和防御无人机，进而构建多无人机攻防对抗作战任务，包含目标攻防和无人机追逃两个方面；步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A；步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数r
t
，其中，进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面，防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分；步骤(4)对基于策略集合MADDPG网络进行训练；步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法，其特征在于，所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A，具体为：(2.1)定义多无人机系统的联合状态空间S假设i＝1，2，...，n表示各个无人机的编号，n为无人机的总数量，t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息，包括自身的位置坐标和速度，与其他所有无人机的相对位置，与隐蔽区域、威胁区域以及目标的相对位置；令t时刻所有无人机的状态为s
t
，使s
t
＝x
t
，则所有无人机在各个时刻的状态构成无人机的联合状态空间S；(2.2)定义多无人机系统的联合动作空间A假设每架无人机的动作为当前时刻的加速度，则t时刻所有无人机的动作其中为t时刻第i架无人机的动作，则所有时刻无人机的动作空间构成了无人机联合动作空间A。3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法，其特征在于，所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数r
t
，具体为：(3.1)进攻方无人机的奖赏函数r
tattack_i
包括攻占目标、避免冲突和避免被敌机击毁三个方面，具体为：(3.1.1)定义攻占目标的奖赏函数r
attack_1
为：r
attack_1
＝
‑
max(d)
ꢀꢀ
(1)式中，d为所有目标与各个进攻无人机的距离集合，m为目标数，n为进攻无人机数，为进攻无人机i与目标j的距离，max(d)为集合d中的最大值。(3.1.2)定义避免与威胁区域冲突的奖赏函数r
attack_2
为：式中，l
uav
为进攻无人机尺寸，l
threat
为威胁区域半径，δ
uav
为无人机的临界区域宽度，δ
threat
为威胁区域的临界区域宽度，为进攻无人机i与威胁区域的中心距离；(3.1.3)定义无人机相互碰撞的奖赏函数为：
式中，d
ij
为进攻无人机i与进攻无人机j的距离；(3.1.4)定义避免被防御方无人机击毁的奖赏函数为：式中，为进攻无人机i相对于防御无人机j的视线角，η
ji
为防御无人机j相对于进攻无人机i的视线角，d
ij
进攻无人机i与防御无人机j的距离，R
d
为期望的相对距离，k为调节因子；(3.1.5)进攻方无人机获得的奖赏为以上...

【专利技术属性】
技术研发人员：丁勇，聂志诚，何金，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人