基于三支多属性决策模型与SAC的兵棋推演智能决策方法技术

技术编号：40475311 阅读：8 留言：0更新日期：2024-02-26 19:11

本发明专利技术公开了一种基于三支多属性决策模型与SAC的兵棋推演智能决策方法，构建威胁指标量化模型，计算兵棋推演系统中对方算子在各项威胁指标上的威胁隶属度，表征为二维威胁评估信息系统；基于威胁评估信息系统，用三支多属性决策模型TWMADM获取对方算子的威胁评估结果；在兵棋推演系统中构建融合TWMADM与软表演者‑批评家算法SAC的智能决策模型TMSAC；在兵棋推演系统中基于TMSAC进行Agent训练，训练完成后保存该兵棋推演智能决策模型，基于该模型输出兵棋推演系统中智能体Agent的行动策略。可有效提高算法在复杂兵棋推演环境中的采样率和收敛速度，能更快产出战术决策；可指导智能体进行高效且准确的动作选择，优先打击掉敌方威胁值较高的算子，提升博弈对抗的获胜概率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机兵棋推演，具体地说，是一种基于三支多属性决策模型与sac的兵棋推演智能决策方法。

技术介绍

1、兵棋推演是基于实战化规则的作战模拟系统，用棋盘描述战场地形地貌，用棋子/算子及其动态变化描述作战实体和战斗事件，基于作战经验和时间对作战双方的对抗过程进行仿真推演。随着计算机和信息技术的不断发展，计算机兵棋推演现已成为现代战争模拟训练的有效手段之一，对研究信息化和智能化战争有重要意义。

2、在计算机兵棋推演研究体系中，研发高效的、可实现自主决策和行动的智能体(agent)一直以来是一项重要课题。近年来，alphago、libratus、openai five、alphastar、alphago zero等代表性棋类和游戏ai的成功研发推动了基于深度强化学习(deepreinforcement learning，drl)的兵棋智能体的研究进展。基于drl的智能体通过与环境进行交互，收集状态、动作和奖励数据进行训练，从而学习到面向特定任务的行动策略，具有很好的探索多样性和环境适应性。

3、现有基于drl的系列兵棋推演决策方法研究显示，基于actor-critic框架的兵棋推演单智能体和多智能体决策方法可提升agent行动策略的高效性和稳定性；基于改进ppo算法可提升多机协同空战场景下的学习效果；基于监督学习和ppo的智能决策算法，并结合额外奖励设置可使agent的收敛速度和胜率得到稳步提升；利用强化学习多智能体深度确定性策略梯度算法实现博弈动态决策；以impala为代表的分布式强化学习算法也常被

4、现有技术1(cn 116036613 a)公开了一种实现兵棋推演智能决策的系统和方法，包括对任务想定模块、资源配置模块、导调控制模块、数据管理模块、推演引擎模块、智能对抗训练接口模块和智能训练与决策模块。该技术侧重兵棋推演智能决策系统中各任务模块的构建和对各模块中任务流程的描述。现有技术2(cn 113222106 a)公开了一种基于分布式强化学习的智能兵棋推演方法。该方法采用常规标签和图像数据表征战场态势和个体属性，基于actor-critic框架对每个算子建立决策神经网络获得决策结果。该技术侧重描述强化学习在智能兵棋推演中的训练过程。现有技术3(cn 114722998a)公开了一种基于cnn-ppo的兵棋推演智能体构建方法。该方法对兵棋推演平台的初始态势数据进行采集并预处理，获得目标态势数据，将该目标态势数据输入所构建的影响力地图模块获得影响力特征；基于卷积神经网络和近端策略优化构建混合神经网络模型，输入拼接后的目标态势数据和影响力特征进行迭代训练。现有技术4(cn 116596343 a)公开了一种基于深度强化学习的智能兵棋推演决策方法。该方法通过智能体状态空间、低优势策略-价值网络架构、作战场景判断模型和智能决策系统构建深度神经网络进行训练，得到基于深度强化学习的智能兵棋推演决策模型。现有技术3和4侧重于基于纯强化学习算法提升作战推演中智能体产生战术决策的效率，加快对抗策略网络训练过程的收敛速度，在算法改进和收敛速度方面还要还有加大提升空间。

技术实现思路

1、本专利技术的目的是提供一种基于三支多属性决策模型与sac的兵棋推演智能决策方法，旨在提高战术兵棋智能体的训练收敛速度和博弈获胜概率。

2、实现本专利技术目的的技术解决方案为：一种基于三支多属性决策模型与sac的兵棋推演智能决策方法，包括以下步骤：

3、步骤1：构建威胁指标量化模型，计算兵棋推演系统中对方算子在各项威胁指标上的威胁隶属度，并表征为二维威胁评估信息系统；

4、步骤2：基于威胁评估信息系统，用三支多属性决策模型tmadm获取对方算子的威胁评估结果，包括算子的威胁等级划分结果和综合威胁排序结果；

5、步骤3：在兵棋推演系统中构建twmadm与软表演者-批评家算法sac的智能融合决策模型tmsac；

6、步骤4：在兵棋推演系统中基于tmsac进行agent训练，训练完成后保存该兵棋推演智能决策模型；

7、进一步的，所述步骤1的具体实施步骤为：

8、步骤1.1：构建兵棋推演系统中对方坦克算子的威胁指标体系及其量化模型；

9、所述威胁指标体系包括距离、速度、角度、攻击能力、防御能力、地形通视、所处环境这7项威胁指标，其中，距离、速度、角度威胁指标的量化模型构建过程如下：

10、1)距离威胁指标量化模型如式(1)所示：

11、

12、其中，tdis代表对方算子的距离威胁指标量化值，和分别代表攻击距离值和夺控距离威胁值，r代表坦克算子的射程，l代表算子之间的距离，d和d′分别代表算子通过普通地形和特殊地形的损耗系数；

13、2)速度威胁指标量化模型如式(2)所示：

14、

15、其中，tvel代表对方算子的速度威胁指标量化值，ve和ve′分别代表对方算子和我方算子的行进速度，ve代表对方算子的准确射击速度阈值；

16、3)角度威胁指标量化模型如式(3)所示：

17、

18、其中，tang代表对方算子的角度威胁指标量化值，l″代表双方算子之间的水平距离，代表对方算子相对我方算子的高程差；

19、4)攻击能力威胁指标量化模型如式(4)所示：

20、tatt＝[ln cap1+ln(∑cap2+1)+ln(∑cap3)]ρ1ρ2ρ3ρ4 (4)

21、其中，tatt代表对方算子的攻击能力威胁指标量化值，式(4)的相关参数为：机动能力cap1、武器系统攻击能力cap2、侦察能力cap3、操纵效能系数ρ1、载弹系数ρ2、行程系数ρ3、电子对抗系数ρ4；

22、5)防御能力威胁指标量化：根据装甲类型对坦克算子的防御能力的威胁指标tdef进行量化：复合装甲：tdef＝1；重型装甲：tdef＝0.7；中型装甲：tdef＝0.5；轻型装甲：tdef＝0.3；无装甲：tdef＝0；

23、6)地形通视威胁指标量化模型如式(5)所示

24、

25、其中，tele代表对方算子的地形通视威胁指标量化值，h和h′分别为对方算子和我方算子的高程，h为双方中间地形的本文档来自技高网...

【技术保护点】

1.一种基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，所述步骤1具体按以下分步骤实施：

3.根据权利要求1所述的基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，所述的步骤2具体按以下分步骤实施：

4.根据权利要求1所述的基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，所述的步骤3中的智能融合决策模型TMSAC包括3个要点：

5.根据权利要求1所述的基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，所述的步骤4具体按以下分步骤实施：

6.根据权利要求5所述的基于三支多属性决策模型与SAC的兵棋推演智能决策方法，其特征在于，所述的步骤4.1中，对每个算子可以设定不同的概率，使其更具有随机性。

【技术特征摘要】

1.一种基于三支多属性决策模型与sac的兵棋推演智能决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于三支多属性决策模型与sac的兵棋推演智能决策方法，其特征在于，所述步骤1具体按以下分步骤实施：

3.根据权利要求1所述的基于三支多属性决策模型与sac的兵棋推演智能决策方法，其特征在于，所述的步骤2具体按以下分步骤实施：

4.根据权利要求1所述的基于三支多属性决...

【专利技术属性】
技术研发人员：彭莉莎，孙宇祥，薛宇凡，孙玉胜，周献中，
申请(专利权)人：浙江财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人