基于策略集合MADDPG多无人机协同攻防对抗方法技术

技术编号:31169776 阅读:24 留言:0更新日期:2021-12-04 13:31
本发明专利技术公布了基于策略集合MADDPG多无人机协同攻防对抗方法,所述方法首先构建多无人机协同攻防对抗作战任务环境;其次建立多无人机系统的联合状态空间和联合动作空间;然后,针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数,包括进攻方无人机和防御方无人机两个部分;接着,对基于策略集合MADDPG网络进行训练;最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明专利技术对MADDPG算法进行改进,设计基于群体目标的奖赏函数,引导协同攻防策略的学习,使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题,攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力。予了无人机更好的协同攻防对抗能力。予了无人机更好的协同攻防对抗能力。

【技术实现步骤摘要】
基于策略集合MADDPG多无人机协同攻防对抗方法


[0001]本专利技术属于空战决策
,具体为基于策略集合MADDPG多无人机协同攻防对抗方法。
技术背景
[0002]随着计算机技术的不断进步,强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中,一个无人机学习的同时,其他无人机也在进行学习,他们所执行的动作作用于环境,使当前的学习环境发生变化,这将使得多无人机系统不满足MDP模型,那么强化学习也就不能直接运用到多无人机系统。为解决此问题,部分算法采用状态预测的强化学习方法解决多无人机智能决策问题,各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测,得到下一时刻其他无人机的预测状态,根据自身状态与其他无人机下一时刻的预测状态进行决策。但是,该方法的好坏很大程度依赖于状态预测的准确性,因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出,迅速成为决策领域研究热点,主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题,在状态或者动作空间连续的情况下,无法很好地估计出各个状态

动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG)及其改进算法,该算法利用策略网络直接输出动作,可以应对连续动作的输出,但存在一个重要的问题,由于每个智能体的策略都在更新迭代,导致环境对于某一个特定的智能体是动态不稳定的。

技术实现思路

[0003]本专利技术的目的在于提供一种基于策略集合MADDPG多无人机协同攻防对抗方法,该方法对MADDPG算法进行改进,为多无人机系统构建基于群体目标状态的奖赏函数进行环境与算法的沟通,将每个无人机智能体的策略网络重建为一个子策略集合,达到优化策略集合的整体效果,实现多无人机的协同攻防对抗。
[0004]为达到上述目的,本专利技术采用以下技术方案:
[0005]基于策略集合MADDPG多无人机协同攻防对抗方法,包括:
[0006]步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;
[0007]步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;
[0008]步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数r
t
,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;
[0009]步骤(4)对基于策略集合MADDPG网络进行训练;
[0010]步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。
[0011]本专利技术具有以下优点:
[0012]1.本专利技术对MADDPG算法进行改进,提出了基于策略集合MADDPG算法,解决了多智能体强化学习中动态不稳定的问题;
[0013]2.基于策略集合MADDPG算法设计了基于任务目标设计的奖赏函数,引导协同攻防策略的学习,解决了无偏连续奖赏函数设计困难的问题。
[0014]3.基于策略集合MADDPG算法能够使无人机不断学习和优化协同攻防策略直至收敛,且攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力,为多无人机协同攻防对抗决策提供了新思路。
附图说明
[0015][0016]图1为本专利技术的算法流程图。
[0017]图2为多无人机协同攻防对抗示意图。
[0018]图3为攻防对抗仿真初始环境示意图。
[0019]图4为本专利技术的基于策略集合MADDPG算法与MADDPG算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。
[0020]图5为多无人机协同攻防对抗运动轨迹。
[0021]图6为障碍物临界区域δ
threat
取不同值情况下基于策略集合MADDPG算法的奖赏值比较。
具体实施方式
[0022]结合所附图表,对本专利技术的技术方案作具体说明。
[0023]如图1所示,本专利技术基于策略集合MADDPG多无人机协同攻防对抗方法,具体包括以下步骤:
[0024]步骤1建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面,具体过程为:
[0025](1.1)建立多无人机协同攻防对抗示意图,如图2所示,在区域(0km~2km,7km~10km)内随机产生3架进攻无人机,初始速度随机产生;在区域 (6km~8km,0km~3km)内随机产生4架防御无人机,初始速度随机产生;目标位置分别为(2km,2.5km)、(8.5km,5km),且不可移动;障碍物区域和隐蔽区域在整个仿真环境内随机产生,且不可移动;图中(x
target
,y
target
)为目标位置,(x
hidden
,y
hidden
)为隐蔽区域位置,(x
threat
,y
threat
)为障碍物位置,(x
attack_i
,y
attcck_i
)为第i架进攻无人机的位置坐标,(x
defense_i
,y
defense_i
)为第i架防御无人机的位置坐标;
[0026](1.2)根据该示意图,构建多无人机攻防对抗作战任务,包含目标攻防:进攻无人机在整个攻防过程中要找到目标且进行摧毁打击,防御无人机负责保护目标;无人机追逃:在有限区域内,防御无人机追捕进攻无人机,进攻无人机躲避防御无人机的进攻。
[0027]步骤2建立多无人机系统的联合状态空间S,具体为:
[0028](2.1)假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;
[0029](2.2)令t时刻所有无人机的状态为s
t
,使s
t
=x
t
,则所有无人机在各个时刻的状态构成无人机的联合状态空间S。
[0030]步骤3建立多无人机系统的联合动作空间A,具体为:
[0031]假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作则所有时刻无人机的动作空间构成了无人机联合动作空间A。
[0032]步骤4设计多无人机系统中基于群体目标状态的奖赏函数r
t
,具体为:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数r
t
,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;步骤(4)对基于策略集合MADDPG网络进行训练;步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A,具体为:(2.1)定义多无人机系统的联合状态空间S假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;令t时刻所有无人机的状态为s
t
,使s
t
=x
t
,则所有无人机在各个时刻的状态构成无人机的联合状态空间S;(2.2)定义多无人机系统的联合动作空间A假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作其中为t时刻第i架无人机的动作,则所有时刻无人机的动作空间构成了无人机联合动作空间A。3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数r
t
,具体为:(3.1)进攻方无人机的奖赏函数r
tattack_i
包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:(3.1.1)定义攻占目标的奖赏函数r
attack_1
为:r
attack_1


max(d)
ꢀꢀ
(1)式中,d为所有目标与各个进攻无人机的距离集合,m为目标数,n为进攻无人机数,为进攻无人机i与目标j的距离,max(d)为集合d中的最大值。(3.1.2)定义避免与威胁区域冲突的奖赏函数r
attack_2
为:式中,l
uav
为进攻无人机尺寸,l
threat
为威胁区域半径,δ
uav
为无人机的临界区域宽度,δ
threat
为威胁区域的临界区域宽度,为进攻无人机i与威胁区域的中心距离;(3.1.3)定义无人机相互碰撞的奖赏函数为:
式中,d
ij
为进攻无人机i与进攻无人机j的距离;(3.1.4)定义避免被防御方无人机击毁的奖赏函数为:式中,为进攻无人机i相对于防御无人机j的视线角,η
ji
为防御无人机j相对于进攻无人机i的视线角,d
ij
进攻无人机i与防御无人机j的距离,R
d
为期望的相对距离,k为调节因子;(3.1.5)进攻方无人机获得的奖赏为以上...

【专利技术属性】
技术研发人员:丁勇聂志诚何金
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1