一种基于深度强化学习的智能兵棋推演决策方法技术

技术编号：38515267 阅读：16 留言：0更新日期：2023-08-19 16:57

本发明专利技术公开了一种基于深度强化学习的智能兵棋推演决策方法，包括：构建兵棋推演环境中智能体的状态空间；构建适用于兵棋智能推演环境下低优势策略

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的智能兵棋推演决策方法

[0001]本专利技术属于深度强化学习领域，特别是涉及一种基于深度强化学习的智能兵棋推演决策方法。

技术介绍

[0002]随着高新技术在军事领域的不断发展运用，武器装备的性能参数越来越多、造价越来越高，现代作战体系越来越复杂，作战训练成本也同步激增。为控制训练成本，节约人力物力资源，各国使用仿真技术模拟作战训练。近年来，以深度强化学习为代表的人工智能技术快速发展，使得直接从模拟战场原始数据中快速提取特征，从而对战场态势进行描述、感知并进一步自主决策成为可能。兵棋推演可以模拟对抗的流程和结果，其结果对实际对抗具有借鉴意义。将人工智能技术应用于兵棋推演，形成战术兵棋智能体，对培养智能化作战指挥员打赢未来战争具有深远意义。
[0003]兵棋推演中最常见的形式是双方博弈，在该形式下，通常推演双方分别控制甲方和乙方，在指定的任务想定下，对己方资源进行规划和调度，从而完成既定对抗意图。目前，深度强化学习的研究主要应用于博弈方向以及人机对抗上，其中深度Q学习网络(Deep Q
‑
learning Network,DQN)能很好的完成对环境状态的态势理解与决策构建的准确性；同时记忆函数的引入将在可自我博弈的基础上完成对模型的快速训练和较好的准确性。但是在兵棋推演系统中智能体设计上，面对瞬息万变的战场环境与错综复杂的作战场景，智能体在数据学习上周期漫长，策略产出与模型训练收敛时都需要较长时间，尤其是基于深度强化学习的思想和方式实现智能算法，虽然提高了AI在兵棋系统的

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能兵棋推演决策方法，其特征在于，包括以下步骤：步骤1：构建兵棋推演环境中智能体的状态空间；步骤2：构建适用于兵棋智能推演环境下低优势策略
‑
价值网络架构；步骤3：构建作战场景判断模型，作为环境奖励来源依据；步骤4：在兵棋推演系统中搭建智能决策系统；步骤5：对所述步骤1至4得到的智能体状态空间、低优势策略
‑
价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练，得到基于深度强化学习的智能兵棋推演决策模型；步骤6：在所述智能兵棋推演决策模型中，对当前作战场景状态下的战术兵棋智能体作战决策进行求解。2.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在，所述步骤1中的具体按以下步骤实施：步骤1.1：构建适用于兵棋推演环境中的战场态势实体分类模型；所述实体分类模型基于卷积神经网络，结合战场态势图信息，将仿真数据划分为敌情，我情，战场环境三类；步骤1.2：接收兵棋推演系统中仿真数据，输入至战场态势实体分类模型，得到模型分类结果；步骤1.3：根据分类结果，构建包含地形矩阵，兵棋位置矩阵，上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。3.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤2中的具体按以下步骤实施：步骤2.1：构建初步的传统策略网络架构，策略网络π(a|s；θ)用于近似策略函数π，给出当前状态s下的动作a，通过策略梯度算法中梯度上升方式更新网络参数θ；步骤2.2：对传统策略网络架构的策略梯度引入基准线进行改进,构建基准线为状态
‑
价值函数V
π
(s
t
)的低优势策略网络；步骤2.3：构建价值网络V(s；w)架构，其中w为价值网络的神经网络参数；s表示战场状态；V为状态
‑
价值函数，输入为战场状态s，输出为数值。价值网络V(s；w)用于近似状态
‑
价值函数，其输出数值用于评判当前状态对于智能体的好坏程度，以改进策略网络，梯度下降方式更新网络参数w；由于动作
‑
价值函数Q
π
是对回报U
t
的期望，因此可用强化方法中观测到的折扣回报u
t
拟合Q
π
，则可得到预测误差为：δ
t
＝V(s
t
；ω)
‑
u
t
，得到梯度：梯度下降更新状态
‑
价值网络中参数ω，其中γ为学习率：
步骤2.4：构建经验回放池。4.根据权利要求3所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤2.2具体按以下步骤实施：步骤2.2.1：在策略梯度中引入基准线进行改进，所述基准线定义为一个不依赖于动作A的函数b，此时策略梯度为：由于策略函数π为概率密度函数，因此关于a求和后结果为1，因此结果为0，故引入基准线的策略梯度能保证期望不变，即：由于直接求策略梯度中的期望代价较高，使用蒙特卡洛对期望求近似，在t时刻战术兵棋智能体通过随机抽样采取的动作为a
t
～π(
·
|s
t
；θ)，令：g(a
t
)是策略梯度的无偏估计，由于a
t
是随机抽样得到的，因此可得随机梯度：若b的选择越接近于Q
π
，则随机策略梯度g(a
t
)的方差会越小，策略网络在训练时收敛速度会加快；步骤2.2.2：选择状态
‑
价值函数V
π
(s
t
)作为策略梯度中基准线；其中，状态
‑
价值函数V
π
(s
t
)定义为：基准线的引入加快策略网络的收敛速度，则此时的随机梯度为：其中，动作
‑
价值函数Q
π
由强化方法近似，再通过经验回放池中数据可计算得到Q
π
的近似值u
t
，状态
‑
价值函数V
π
(s)使用卷积神经网络V(s；...

【专利技术属性】
技术研发人员：费蓉，陈汭竹，李爱民，吴丽丽，马梦阳，王宏博，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人