基于熵权法和强化学习算法融合的多属性智能决策方法技术

技术编号:38247200 阅读:14 留言:0更新日期:2023-07-25 18:07
基于熵权法和强化学习算法融合的多属性智能决策方法,包括:步骤1:确定方案集和属性集;步骤2:多属性指标威胁量化:1)目标距离指标威胁量化;2)目标速度指标威胁量化;3)目标攻击指标威胁量化;4)环境指标威胁量化;5)目标防御指标威胁量化;步骤3:基于熵权法的综合威胁度计算;步骤4:多属性决策方法与强化学习算法融合。其优点:通过DQN框架构建强化学习算法实现智能决策,融合多属性决策的强化学习预训练经验存储模块主要是从推演环境获取状态数据,进行多属性决策,形成决策表。优势值指导Q_next网络值进行计算,Q_next网络根据新旧网络并结合整体分布概率输出动作值,根据动作值选择并输出动作。且通过优势值进行校正,计算出Q_eval损失并反向更新Q_eval网络。出Q_eval损失并反向更新Q_eval网络。出Q_eval损失并反向更新Q_eval网络。

【技术实现步骤摘要】
基于熵权法和强化学习算法融合的多属性智能决策方法


[0001]本专利技术涉及智能博弈推演
,具体为一种基于熵权法和强化学习算法融合的多属性智能决策方法。

技术介绍

[0002]计算机仿真推演是作战模拟的有效手段,它使用代表战场及其军事力量的实体,依据战术规则,并结合概率原理,通过推演各方决策对抗,对作战过程进行逻辑研究和科学评估。随着人工智能和计算机运算能力的发展,作战推演由手工作战推演发展到现代计算机规则式推演,目前正在向智能推演阶段演进。
[0003]强化学习在即时战略游戏上的成功,为作战推演的智能化提供了可行路线。强化学习是机器学习的分支之一,主要思想是在一个特定环境下采取怎样的行动来最大化奖励。国防大学崔文华等人提出一种基于深度强化学习的作战推演决策方法框架,西北工业大学彭星光等人提出一种基于分布式强化学习的智能作战推演方法,北京理工大学薛傲等人提出一种面向作战推演的交互式强化学习算法平台。目前,作战推演中强化学习的回报值设置往往根据专家经验手工设置,但这种手工设置回报值往往难以确定具体正确的估计值,且训练长时间才能评估回报值设置的好坏;如何结合推演数据,进行客观分析,总结提炼出合适的回报值,已成为影响强化学习训练效果和收敛速度的重要问题。
[0004]多属性决策(Multiple Attribute Decision Making,MADM)是在综合考量各项属性评价结果基础上,选出最优方案的一种决策方法,是与多个属性有关的有限方案选择问题,在工业设计、经济决策、工程管理等众多领域有着广泛地应用。多属性决策方法,可以利用信息融合实体对作战推演中目标信息和环境特性进行综合分析,进而得到更加客观合理的综合评价值。在多属性决策问题中,属性之间往往存在着不可替代甚至矛盾的关系,如何分配属性权重是解决多属性决策问题的难点。

技术实现思路

[0005]本专利技术要解决的技术问题是:克服现有技术的不足,提出一种基于熵权法和强化学习算法融合的多属性智能决策方法,从多属性决策角度对获取数据进行分析,利用熵权法对各属性权重进行计算,进而得出对方各实体威胁度;并以威胁度为基础,构建红方强化学习奖赏函数,根据该奖赏函数进行DQN框架的训练,得出多属性决策和强化学习结合的算法,并以此算法为基础生成激进、攻守兼备、保守三种作战方案。
[0006]本专利技术解决其技术问题所采用的技术方案是:所述一种基于熵权法和强化学习算法融合的多属性智能决策方法,包括以下步骤:
[0007]步骤1:确定方案集和属性集
[0008]确定方案集和属性集是多属性决策的首要问题,设多属性决策问题的方案集为A={A1,A2,...,A
n
},属性集为G={G1,G2,G3,...,G
m
},方案A
i
对属性G
j
的属性值为y
ij
(i=1,2,...,n,j=1,2,...,m),由y
ij
构成了决策矩阵Y
(nxm)
。方案集是决策的客观对象,决策矩阵
为决策方案提供了基础信息,各种分析方法均以决策矩阵作为分析的基础。
[0009]在作战推演系统中,将一个目标视作一个决策方案,方案集A由对方所有目标构成,例如舰艇、潜艇、飞机等。决策准则是对方对我方保卫目标的威胁程度。属性集G包括各种影响威胁度的属性,本专利技术取G={目标距离威胁,目标攻击威胁,目标速度威胁,环境指标威胁,目标防御值},G中指标的具体含义如表1所示。通过获取到的实际数据,利用合理的量化方法可以得到决策矩阵Y。
[0010]表1指标属性及其意义
[0011][0012]步骤2:多属性指标威胁量化
[0013]合理的指标量化是获得科学评估结果的基础。目标威胁评估作为推演中辅助决策的重要部分,评估结果直接影响智能体AI的有效性。不同类型指标采用不同的威胁量化方法。
[0014](1)目标距离指标威胁量化
[0015]蓝方舰艇j相对于红方舰艇i的综合目标距离指标威胁量化值φ
ij
(x,y)的计算公式为:
[0016][0017]式中,O(x,y)为夺控点坐标;τ
common
为舰艇实体通过一格普通地形需要消耗的体力值;τ(x,y)为车辆通过特殊地形消耗的体力值;D(J,O)为蓝方坦克j到夺控点O的数量距离;D
max
为想定边界最大数量距离;D
ij
为坦克i和坦克j之间的格子距离;ψ
i
(x,y)为蓝方坦克j对于红方坦克i的目标距离的威胁量化;为蓝方坦克j相对于红方坦克i的夺控威胁值。
[0018](2)目标速度指标威胁量化
[0019]设空中目标的最大速度V
air

max
,水面舰艇目标最大速度为V
tank

max
,潜艇目标的最大速度V
sol

max
,设空中目标T
j
与我方评估节点W
i
的相对速度大小为V
ij
,按照目标类型分别进行量化,速度威胁度T
vij
为:
[0020][0021]式中,β1,β2,β3∈[0,1],分别为空中目标、坦克目标、单兵目标的威胁因子,表示不同类型目标的速度威胁特征。
[0022](3)目标攻击指标威胁量化
[0023]对于目标坦克的攻击能力,主要考虑攻击能力威胁函数进行计算:
[0024]C=[ln B+ln(∑A1+1)+ln(∑A2)]ε1ε2ε3ε4ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0025]式中,B为坦克实体的机动能力;A1为坦克实体的武器系统攻击能力;A2为坦克实体侦察能力;ε1、ε2、ε3和ε4分别为坦克实体的行进间射能力、载弹能力、电子对抗能力和导弹进攻能力。
[0026](4)环境指标威胁量化
[0027]通过判断红方坦克W
i
周围两格是否有一级公路、二级公路及城镇居民地,来获得威胁度T
ei
[0028]T
ei
=w1h1+w2h2+w3r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0029]式中,h1、h2和r分别代表一级公路、二级公路及城镇居民地;w1,w2和w3分别为一级公路、二级公路及城镇居民地对应的权重向量;如果发现实体周围包含上述地形环境,则赋予相应数值,并计算出总的环境指标。
[0030](5)目标防御指标威胁量化
[0031]针对不同装甲的防御能力,本专利技术对目标防御值D
j
进行赋值,如表2所示。
[0032]表2目标防御量化值
[0033][0034][0035]步骤3:基于熵权法的综合威胁度计算
[0036]“熵”最早作为热力学的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于熵权法和强化学习算法融合的多属性智能决策方法,包括以下步骤:步骤1:确定方案集和属性集确定方案集和属性集是多属性决策的首要问题,设多属性决策问题的方案集为A={A1,A2,...,A
n
},属性集为G={G1,G2,G3,...,G
m
},方案A
i
对属性G
j
的属性值为y
ij
(i=1,2,...,n,j=1,2,...,m),由y
ij
构成了决策矩阵Y
(nxm)
;方案集是决策的客观对象,决策矩阵为决策方案提供了基础信息,各种分析方法均以决策矩阵作为分析的基础;在作战推演系统中,将一个目标视作一个决策方案,方案集A由对方所有目标构成,例如舰艇、潜艇、飞机等;决策准则是对方对我方保卫目标的威胁程度;属性集G包括各种影响威胁度的属性,本发明取G={目标距离威胁,目标攻击威胁,目标速度威胁,环境指标威胁,目标防御值};通过获取到的实际数据,利用合理的量化方法可以得到决策矩阵Y;步骤2:多属性指标威胁量化合理的指标量化是获得科学评估结果的基础;目标威胁评估作为推演中辅助决策的重要部分,评估结果直接影响智能体AI的有效性;不同类型指标采用不同的威胁量化方法;(1)目标距离指标威胁量化蓝方舰艇j相对于红方舰艇i的综合目标距离指标威胁量化值φ
ij
(x,y)的计算公式为:式中,O(x,y)为夺控点坐标;τ
common
为舰艇实体通过一格普通地形需要消耗的体力值;τ(x,y)为车辆通过特殊地形消耗的体力值;D(J,O)为蓝方坦克j到夺控点O的数量距离;D
max
为想定边界最大数量距离;D
ij
为坦克i和坦克j之间的格子距离;ψ
i
(x,y)为蓝方坦克j对于红方坦克i的目标距离的威胁量化;为蓝方坦克j相对于红方坦克i的夺控威胁值;(2)目标速度指标威胁量化设空中目标的最大速度V
air

max
,水面舰艇目标最大速度为V
tank

max
,潜艇目标的最大速度V
sol

max
,设空中目标T
j
与我方评估节点W
i
的相对速度大小为V
ij
,按照目标类型分别进行量化,速度威胁度T
vij
为:式中,...

【专利技术属性】
技术研发人员:卫翔刘星璇杨家轩周航程侯文姝
申请(专利权)人:中国人民解放军海军潜艇学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1