【技术实现步骤摘要】
一种基于深度强化学习的分层决策方法
[0001]本申请属于深度强化学习
,尤其涉及一种基于深度强化学习的分层决策方法。
技术介绍
[0002]现代战机正向高度自动化、信息化及智能化方向发展,战场环境复杂多变、战场信息繁杂多样,依靠飞行员自身在短时间内做出作战决策是负担繁重的任务,迫切需要一种智能化的决策支持系统来辅助飞行员面对复杂战场态势时做出实时决策。
[0003]深度强化学习是一种不依赖标签样本的人工智能算法,通过与环境的交互学习知识,不断训练和迭代模型来提升决策系统的智能水平。深度强化学习主要解决的是序列决策问题,能够根据当前环境信息做出实时决策,非常适合空战博弈场景,是当前的研究热点。现有的面向空战应用的深度强化学习算法存在的问题是:奖励函数难以塑造、收敛慢、可解释性差。这些问题使得训练变得非常困难,影响算法效率。
[0004]在战况复杂、对抗激烈、瞬息万变的战场环境中,战场态势评估与目标战术意图识别技术通过有限的信息感知来推断态势,并评估敌方作战意图、威胁程度以及本机的胜算程度,形成基本的判断 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的分层决策方法,其特征在于,所述基于深度强化学习的分层决策方法,包括:初始化决策对象的战术决策层智能体和意图识别层智能体;意图识别智能体采用深度循环Q网络根据输入的意图识别观测信息,生成意图识别层行为,根据意图识别层行为选择战术决策层智能体;战术决策层智能体采用深度确定性策略梯度算法,根据战术决策观测信息计算战术决策层智能体的行为;决策对象执行战术决策层智能体输出的行为指令,更新决策对象状态信息。2.根据权利要求1所述的基于深度强化学习的分层决策方法,其特征在于,所述意图识别观测信息包括预设离散时间长度为T时观测对象的状态,所述观测对象单个时刻的状态包括:观测对象间相对距离、观测对象相对角度、观测对象航向角、观测对象...
【专利技术属性】
技术研发人员:朱燎原,包骐豪,夏少杰,瞿崇晓,王宇峰,
申请(专利权)人:中国电子科技集团公司第五十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。