基于TD3的多无人机空战策略生成方法技术

技术编号：37292174 阅读：18 留言：0更新日期：2023-04-21 03:23

本发明专利技术公开了一种基于TD3的多无人机空战策略生成方法，包括如下步骤：将多无人机空战协同决策问题构建为马尔可夫决策模型；建立态势评估函数，采用双延迟深度确定性策略梯度训练所述马尔可夫决策模型，在训练过程中基于所述态势评估函数选择执行动作的目标；基于训练完成的马尔可夫决策模型生成多无人机空战策略。本发明专利技术应用于无人机自主协同决策与控制技术领域，采用双延迟深度确定性策略梯度对格斗型无人机决策过程进行训练，在双延迟深度确定性策略梯度算法中，使用了两套网络估算Q值，并选择相对较小的网络作为更新目标，进而有效地解决了Q值高估的问题。解决了Q值高估的问题。解决了Q值高估的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于TD3的多无人机空战策略生成方法

[0001]本专利技术涉及多无人机自主协同决策与控制
，具体是一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient algorithm，TD3)的多无人机空战策略生成方法。

技术介绍

[0002]近年来，随着无人机技术的飞速发展，以无人机为核心的蜂群作战技术对陆上阵地、海面平台、关键基础设施等高价值目标防护构成严峻威胁。为应对无人机蜂群所带来的战争威胁，各军事强国均在竞相开展智能型自主对抗关键技术研究，其中格斗型无人机的研发已成为各国研究的热点。格斗型无人机是通过空中格斗实现对常规旋翼/固定翼无人机进行反制的创新型无人机，其以“群对群”的方式反制敌方无人机蜂群的“多数量”和“低成本”，是当前具有发展潜力的大规模反蜂群技术路线之一。
[0003]目前格斗型无人机执行作战任务的控制方法多采用预先程序设定或由地面站操作员实时操控。预先程序设定的方法无法根据实时战场环境灵活决策，作战前战场信息多数未知，在不确定目标位置、数量和能力的情况下提前规划很难达到预期效果。由地面人员控制的方法需要考虑通信的稳定性与延时问题，战场电磁环境复杂，信息不能保证可靠传递；战场环境瞬息万变，战机稍纵即逝，尤其是空战格斗这种战场态势迅速变化的场景，信息回传和指令接收的延时将对空中格斗产生重大影响。此外，当无人机数量增加时，操纵人力成本也相应增加，特别是构成集群后操纵人员的组织、协调压力增大，协同配合能力要求提升。因此，对...

【技术保护点】

【技术特征摘要】
1.一种基于TD3的多无人机空战策略生成方法，其特征在于，包括如下步骤：将多无人机空战协同决策问题构建为马尔可夫决策模型；建立态势评估函数，采用双延迟深度确定性策略梯度训练所述马尔可夫决策模型，在训练过程中基于所述态势评估函数选择执行动作的目标；基于训练完成的马尔可夫决策模型生成多无人机空战策略。2.根据权利要求1所述的基于TD3的多无人机空战策略生成方法，其特征在于，所述马尔可夫决策模型具体为(S、A、R、γ)，其中：S为无人机空战相对状态空间，为：S＝{D,α,β,v
r
,v
b
,γ
r
,γ
b
,ψ
r
,ψ
b
,μ
r
,μ
b
}其中，D、α、β分别为无人机空战中红方无人机与蓝方无人机之间的相对距离、水平视线偏角与纵向视线倾角，v
r
、γ
r
、ψ
r
、μ
r
为红方无人机的速度大小、航迹倾角、航迹偏角和滚转角，(x
b
,y
b
,z
b
)为蓝方无人机在三维空间中的坐标值，v
b
、γ
b
、ψ
b
、μ
b
为蓝方无人机的速度大小、航迹倾角、航迹偏角和滚转角；A为无人机空战的动作空间，采用三个连续的控制量a＝[n
t
,n
f
,ω]控制无人机机动执行动作，其中，n
t
为切向过载，n
f
为法向过载，ω为机体滚转角速度；R为无人机机动执行动作的奖励函数；γ为折扣率。3.根据权利要求2所述的基于TD3的多无人机空战策略生成方法，其特征在于，所述奖励函数具体为：R＝r+k1r1+k2r2+k3r3+k4r4其中，r为锁定成功奖励，r1为角度优势奖励，r2为距离优势奖励，r3为高度优势奖励，r4为速度优势奖励，k1、k2、k3、k4为权值；锁定成功奖励为：其中，D
*
为满足锁定成功时两机最小距离，p
*
、e
*
为红方无人机、蓝方无人机速度方向与视线角的夹角，p、e为满足锁定成功时红方无人机、蓝方无人机速度方向与视线角的最大夹角；所述角度优势奖励、所述距离优势奖励、所述高度优势奖励、所述速度优势奖励为：其中，D
max
为无人机的最大探测距离，Δh为双机高度差，v
max
、v
min
为无人机飞行速度所能达到的最大值和最小值。4.根据权利要求1或2或3所述的基于TD3的多无人机空战策略生成方法，其特征在于，
所述态势评估函数为：其中，c
ij
是红方无人机i对蓝方无人机j的综合态势值，为格斗优势指标，为威胁态势指标，为目标价值指标，k
c1
、k
c2
、k
c3
为不同态势项对综合态势值的影响权重。5.根据权利要求4所述的基于TD3的多无人机空战策略生成方法，其特征在于，采用层次分析法确定不同态势项对综合态势值的影响权重k
c1
、k
c2
、k
c3
的值。6.根据权利要求4所述的基于TD3的多无人机空战策略生成方法，其特征在于，所述格斗优势指标为：其中，为角度优势，为距离优势，为能量优势，ω1、ω2、ω3为优势权重；所述角度优势为：其中，α
ij
为红方无人机i对应于蓝方无人机j的追击角，β
ij
为蓝方无人机j对应于红方无人机i的逃逸角；所述距离优势为：其中，...

【专利技术属性】
技术研发人员：高显忠，王宝来，侯中喜，郭正，王玉杰，邓小龙，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人