【技术实现步骤摘要】
基于策略集合MADDPG多无人机协同攻防对抗方法
[0001]本专利技术属于空战决策
,具体为基于策略集合MADDPG多无人机协同攻防对抗方法。
技术背景
[0002]随着计算机技术的不断进步,强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中,一个无人机学习的同时,其他无人机也在进行学习,他们所执行的动作作用于环境,使当前的学习环境发生变化,这将使得多无人机系统不满足MDP模型,那么强化学习也就不能直接运用到多无人机系统。为解决此问题,部分算法采用状态预测的强化学习方法解决多无人机智能决策问题,各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测,得到下一时刻其他无人机的预测状态,根据自身状态与其他无人机下一时刻的预测状态进行决策。但是,该方法的好坏很大程度依赖于状态预测的准确性,因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出,迅速成为决策领域研究热点,主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题,在状态或者动作空间连续的情况下,无法很好地估计出各个状态
‑
动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG)及其改进算法,该算法利用策略网络直接输出动作,可以应对连续动作的输出,但存在一个重要的问题,由于每个智能体 ...
【技术保护点】
【技术特征摘要】
1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数r
t
,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;步骤(4)对基于策略集合MADDPG网络进行训练;步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A,具体为:(2.1)定义多无人机系统的联合状态空间S假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;令t时刻所有无人机的状态为s
t
,使s
t
=x
t
,则所有无人机在各个时刻的状态构成无人机的联合状态空间S;(2.2)定义多无人机系统的联合动作空间A假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作其中为t时刻第i架无人机的动作,则所有时刻无人机的动作空间构成了无人机联合动作空间A。3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数r
t
,具体为:(3.1)进攻方无人机的奖赏函数r
tattack_i
包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:(3.1.1)定义攻占目标的奖赏函数r
attack_1
为:r
attack_1
=
‑
max(d)
ꢀꢀ
(1)式中,d为所有目标与各个进攻无人机的距离集合,m为目标数,n为进攻无人机数,为进攻无人机i与目标j的距离,max(d)为集合d中的最大值。(3.1.2)定义避免与威胁区域冲突的奖赏函数r
attack_2
为:式中,l
uav
为进攻无人机尺寸,l
threat
为威胁区域半径,δ
uav
为无人机的临界区域宽度,δ
threat
为威胁区域的临界区域宽度,为进攻无人机i与威胁区域的中心距离;(3.1.3)定义无人机相互碰撞的奖赏函数为:
式中,d
ij
为进攻无人机i与进攻无人机j的距离;(3.1.4)定义避免被防御方无人机击毁的奖赏函数为:式中,为进攻无人机i相对于防御无人机j的视线角,η
ji
为防御无人机j相对于进攻无人机i的视线角,d
ij
进攻无人机i与防御无人机j的距离,R
d
为期望的相对距离,k为调节因子;(3.1.5)进攻方无人机获得的奖赏为以上...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。