一种基于深度强化学习的智能兵棋推演决策方法技术

技术编号:38515267 阅读:16 留言:0更新日期:2023-08-19 16:57
本发明专利技术公开了一种基于深度强化学习的智能兵棋推演决策方法,包括:构建兵棋推演环境中智能体的状态空间;构建适用于兵棋智能推演环境下低优势策略

【技术实现步骤摘要】
一种基于深度强化学习的智能兵棋推演决策方法


[0001]本专利技术属于深度强化学习领域,特别是涉及一种基于深度强化学习的智能兵棋推演决策方法。

技术介绍

[0002]随着高新技术在军事领域的不断发展运用,武器装备的性能参数越来越多、造价越来越高,现代作战体系越来越复杂,作战训练成本也同步激增。为控制训练成本,节约人力物力资源,各国使用仿真技术模拟作战训练。近年来,以深度强化学习为代表的人工智能技术快速发展,使得直接从模拟战场原始数据中快速提取特征,从而对战场态势进行描述、感知并进一步自主决策成为可能。兵棋推演可以模拟对抗的流程和结果,其结果对实际对抗具有借鉴意义。将人工智能技术应用于兵棋推演,形成战术兵棋智能体,对培养智能化作战指挥员打赢未来战争具有深远意义。
[0003]兵棋推演中最常见的形式是双方博弈,在该形式下,通常推演双方分别控制甲方和乙方,在指定的任务想定下,对己方资源进行规划和调度,从而完成既定对抗意图。目前,深度强化学习的研究主要应用于博弈方向以及人机对抗上,其中深度Q学习网络(Deep Q

learning Network,DQN)能很好的完成对环境状态的态势理解与决策构建的准确性;同时记忆函数的引入将在可自我博弈的基础上完成对模型的快速训练和较好的准确性。但是在兵棋推演系统中智能体设计上,面对瞬息万变的战场环境与错综复杂的作战场景,智能体在数据学习上周期漫长,策略产出与模型训练收敛时都需要较长时间,尤其是基于深度强化学习的思想和方式实现智能算法,虽然提高了AI在兵棋系统的对抗推演水准,但是较长周期的策略产出是其最大的弊端。
[0004]现有技术1CN114722998A中,公开了一种基于CNN

PPO的兵棋推演智能体构建方法。该现有技术采集兵棋推演平台的初始态势数据,并对初始态势数据进行预处理,获得目标态势数据;构建影响力地图模块,将目标态势数据输入影响力地图模块,输出获得影响力特征;基于卷积神经网络和近端策略优化构建混合神经网络模型,将目标态势数据和影响力特征拼接后,输入混合神经网络模型进行模型迭代训练,直到目标函数最小、网络收敛,实现CNN

PPO智能体的构建。该现有技术用于改进在兵棋推演这一复杂场景中智能体计算决策的效率,加快智能体训练过程的收敛速度,但是缺乏有效方法对实际作战场景下智能体策略进行评估,导致其策略的准确性可能不高。
[0005]现有技术2CN113723013A中,公开了一种用于连续空间兵棋推演的多智能体决策方法。该方法构建连续空间兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;构建经验重访数据集;多个智能体进行本地观测;基于CNN提取推演多智能体的多实体特征;多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;利用训练完成的多智能体进行对战决策。但是,该方法适配于兵棋推演中离散空间性能较差,这种离散空间是指智能体是在有限动作下,战场状态是随每一回合的推演而有限变化的;同时,缺乏有效评估方法对智能体策略进行
合理评估。

技术实现思路

[0006]本专利技术主要解决的技术问题是提供一种基于深度强化学习的智能兵棋推演决策方法,旨在帮助战术兵棋智能体加快产出作战决策。
[0007]为解决上述技术问题,本专利技术提供一种基于深度强化学习的智能兵棋推演决策方法,所述方法包括:
[0008]步骤1:构建兵棋推演环境中智能体的状态空间;
[0009]步骤2:构建适用于兵棋智能推演环境下低优势策略

价值网络架构;
[0010]步骤3:构建作战场景判断模型,作为环境奖励来源依据;
[0011]步骤4:在兵棋推演系统中搭建智能决策系统;
[0012]步骤5:对所述步骤1至4得到的智能体状态空间、低优势策略

价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练,得到基于深度强化学习的智能兵棋推演决策模型;
[0013]步骤6:在所述智能兵棋推演决策模型中,对当前作战场景状态下的战术兵棋智能体作战决策进行求解。
[0014]进一步地,所述步骤1的具体实现步骤为:
[0015]步骤1.1:构建适用于兵棋推演环境中的战场态势实体分类模型;
[0016]所述实体分类模型基于卷积神经网络,结合战场态势图信息,将仿真数据划分为敌情,我情,战场环境三类;
[0017]步骤1.2:接收兵棋推演系统中仿真数据,输入至战场态势实体分类模型,得到模型分类结果;
[0018]步骤1.3:根据分类结果,构建包含地形矩阵,兵棋位置矩阵,上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。
[0019]进一步地,所述步骤2的具体实施步骤为:
[0020]步骤2.1:构建初步的传统策略网络架构,策略网络π(a|s;θ)用于近似策略函数π,给出当前状态s下的动作a,通过策略梯度算法中梯度上升方式更新网络参数θ;
[0021]步骤2.2:对传统策略网络架构的策略梯度引入基准线(Baseline)进行改进,构建基准线为状态

价值函数V
π
(s
t
)的低优势策略网络;
[0022]步骤2.3:构建价值网络V(s;w)架构,其中w为价值网络的神经网络参数;s表示战场状态;V为状态

价值函数,输入为战场状态s,输出为数值。价值网络V(s;w)用于近似状态

价值函数,其输出数值用于评判当前状态对于智能体的好坏程度,以改进策略网络,梯度下降方式更新网络参数w;
[0023]由于动作

价值函数Q
π
是对回报U
t
的期望,因此可用强化(Reinforce)方法中观测到的折扣回报u
t
拟合Q
π
,则可得到预测误差为:
[0024]δ
t
=V(s
t
;ω)

u
t

[0025]得到梯度:
[0026][0027]梯度下降更新状态

价值网络中参数ω,其中γ为学习率:
[0028][0029]步骤2.4:构建经验回放池。
[0030]步骤2.2具体按以下步骤实施:
[0031]步骤2.2.1:在策略梯度中引入基准线进行改进,所述基准线定义为一个不依赖于动作A的函数b,此时策略梯度为:
[0032][0033]由于策略函数π为概率密度函数,因此关于a求和后结果为1,因此结果为0,故引入基准线的策略梯度能保证期望不变,即:
[0034][0035]由于直接求策略梯度中的期望代价较高,使用蒙特卡洛对期望求近似,在t时刻战术兵棋智能体通过随机抽样采取的动作为a
t
~π(
·...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能兵棋推演决策方法,其特征在于,包括以下步骤:步骤1:构建兵棋推演环境中智能体的状态空间;步骤2:构建适用于兵棋智能推演环境下低优势策略

价值网络架构;步骤3:构建作战场景判断模型,作为环境奖励来源依据;步骤4:在兵棋推演系统中搭建智能决策系统;步骤5:对所述步骤1至4得到的智能体状态空间、低优势策略

价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练,得到基于深度强化学习的智能兵棋推演决策模型;步骤6:在所述智能兵棋推演决策模型中,对当前作战场景状态下的战术兵棋智能体作战决策进行求解。2.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在,所述步骤1中的具体按以下步骤实施:步骤1.1:构建适用于兵棋推演环境中的战场态势实体分类模型;所述实体分类模型基于卷积神经网络,结合战场态势图信息,将仿真数据划分为敌情,我情,战场环境三类;步骤1.2:接收兵棋推演系统中仿真数据,输入至战场态势实体分类模型,得到模型分类结果;步骤1.3:根据分类结果,构建包含地形矩阵,兵棋位置矩阵,上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。3.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在于,所述步骤2中的具体按以下步骤实施:步骤2.1:构建初步的传统策略网络架构,策略网络π(a|s;θ)用于近似策略函数π,给出当前状态s下的动作a,通过策略梯度算法中梯度上升方式更新网络参数θ;步骤2.2:对传统策略网络架构的策略梯度引入基准线进行改进,构建基准线为状态

价值函数V
π
(s
t
)的低优势策略网络;步骤2.3:构建价值网络V(s;w)架构,其中w为价值网络的神经网络参数;s表示战场状态;V为状态

价值函数,输入为战场状态s,输出为数值。价值网络V(s;w)用于近似状态

价值函数,其输出数值用于评判当前状态对于智能体的好坏程度,以改进策略网络,梯度下降方式更新网络参数w;由于动作

价值函数Q
π
是对回报U
t
的期望,因此可用强化方法中观测到的折扣回报u
t
拟合Q
π
,则可得到预测误差为:δ
t
=V(s
t
;ω)

u
t
,得到梯度:梯度下降更新状态

价值网络中参数ω,其中γ为学习率:
步骤2.4:构建经验回放池。4.根据权利要求3所述基于深度强化学习的智能兵棋推演决策方法,其特征在于,所述步骤2.2具体按以下步骤实施:步骤2.2.1:在策略梯度中引入基准线进行改进,所述基准线定义为一个不依赖于动作A的函数b,此时策略梯度为:由于策略函数π为概率密度函数,因此关于a求和后结果为1,因此结果为0,故引入基准线的策略梯度能保证期望不变,即:由于直接求策略梯度中的期望代价较高,使用蒙特卡洛对期望求近似,在t时刻战术兵棋智能体通过随机抽样采取的动作为a
t
~π(
·
|s
t
;θ),令:g(a
t
)是策略梯度的无偏估计,由于a
t
是随机抽样得到的,因此可得随机梯度:若b的选择越接近于Q
π
,则随机策略梯度g(a
t
)的方差会越小,策略网络在训练时收敛速度会加快;步骤2.2.2:选择状态

价值函数V
π
(s
t
)作为策略梯度中基准线;其中,状态

价值函数V
π
(s
t
)定义为:基准线的引入加快策略网络的收敛速度,则此时的随机梯度为:其中,动作

价值函数Q
π
由强化方法近似,再通过经验回放池中数据可计算得到Q
π
的近似值u
t
,状态

价值函数V
π
(s)使用卷积神经网络V(s;...

【专利技术属性】
技术研发人员:费蓉陈汭竹李爱民吴丽丽马梦阳王宏博
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1