一种基于分层A3C的智能决策方法技术

技术编号:38005928 阅读:24 留言:0更新日期:2023-06-30 10:22
本发明专利技术公开了一种基于分层A3C的智能决策方法,涉及防空作战智能决策领域,包括以下方法步骤:S01:最小化遗漏高价值目标概率、最小化保卫要地损失、最大化有效杀伤概率、最小化拦截弹资源消耗等作为优化目标建立数学模型;S02:由步骤S01明确防空作战中的状态,动作,奖励和目标;S03:基于Bi

【技术实现步骤摘要】
一种基于分层A3C的智能决策方法


[0001]本专利技术属于防空作战智能决策领域,具体涉及一种基于分层A3C的智能决策方法。

技术介绍

[0002]现代战争中,决策是指挥控制中最核心的环节。其内涵是指在战场态势感知的基础上,按一定准则及约束条件,对己方多类型、多平台武器资源进行高效运用,合理分配打击多个来袭目标,避免遗漏重点目标、重复射击等现象,以期实现最佳的作战效果,高效的武器

目标分配与自由射击相比,作战效能提高3倍以上,起到“兵力倍增器”的作用;
[0003]近年来,深度强化学习在复杂问题的智能决策领域大放异彩,如Deepmind团队所做的工作AlphaGO,Alpha Zero,AlphaStar和Alpha Fold2,强化学习是一种试错的方法,在智能体与环境交互过程中不断学习获得更好的策略,实现了从感知到决策的端到端过程,为解决非完备条件下的信息博弈问题提供了新思路。深度强化学习方法在围棋、即时策略游戏、自动驾驶、资源配置和无人机控制等领域都获得了较好的效果,获得了广泛关注;
[0004]防空作战本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分层A3C的智能决策方法,其特征在于:包括以下方法步骤:S01:最小化遗漏高价值目标概率、最小化保卫要地损失、最大化有效杀伤概率、最小化拦截弹资源消耗等作为优化目标建立数学模型;S02:由步骤S01明确防空作战中的状态,动作,奖励和目标;S03:基于Bi

GRU网络的空情特征提取;S04:多头注意力机制的计算;S05:使用A3C算法进行并行计算和训练。2.根据权利要求1所述的一种基于分层A3C的智能决策方法,其特征在于,所述步骤S01中,智能体的目标是最大化累积奖励函数其中,γ是折扣因子,T是时间范围,r
t
是在第t步获得的奖励。从智能体策略π可以得到状态价值函数,即R
t
的期望,V
π
(s),计算方法V
π
(s)=E[R
t
|s
t
=s,π],和动作状态值函数Q
π
(s,a),计算方法Q
π
(s,a)=E[R
t
|s
t
=s,a
t
=a,π],优势函数A
π
(s
t
,a
t
)=Q
π
(s,a)

V
π
(s),表示用于表征当前状态s
t
下,采取动作a
t
获得的奖励与策略π下平均奖励,即V
π
(s)相比的好坏。3.根据权利要求1所述的一种基于分层A3C的智能决策方法,其特征在于,所述步骤S02中,状态方面,包括我方保卫要地状态、我方火力单元状态、被侦察到的敌方目标状态、可被攻击的敌方目标状态,状态信息由数字战场环境维护,其中保卫要地状态,包括要地编号、位置、类型、受攻击状态;我方火力单元状态,包括火力单元标编号、位置、剩余导弹数量、是否可用、本单元能攻击的目标编号、受攻击状态;被侦察到的敌方目标状态,包括目标编号、位置、类型、运动状态、受攻击状态,动作空间方面包括,目标选择、火力单元选择、发射数量选择。4.根据权利要求1所述的一种基于分层A3C的智能决策方法,其特征在于,所述步骤S03中,采用Bi

GRU方法,对输入的状态进行分析,作为LSTM的简化版,GRU中利用更新门代替了LSTM中的输入门与遗忘门,更新门确定历史信息保留情况,重置门确定历史信息与当前信息的组合方式,主要参数计算公式如下:z
t
=σ(w
z
[h
t
‑1,x
t
]+b
z
)r
t
=σ(w
r
[h
t
‑1,x
t
]+b
r
))其中,x
t
为t时刻的输入,h
t
为t时刻的输出,r
t
为重置门,z
t
为更新门,为根据更新门生成的信息,σ为sigmoid激活函数,tanh为双曲正切型激活函数,w和b分别为权重和偏置项;Bi

GRU网络中的前向单元分析正向状态序列规律,反向单元逆向分析状态序列规律,主要过程计算公式如下:主要过程计算公式如下:主要过程计算公式如下:
其中,表示前向隐藏层状态,表示反向隐藏层状态,w
t1
,w
t2

【专利技术属性】
技术研发人员:王刚赵敏睿付强李腾达郭相科韩琦
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1