【技术实现步骤摘要】
基于熵权法和强化学习算法融合的多属性智能决策方法
[0001]本专利技术涉及智能博弈推演
,具体为一种基于熵权法和强化学习算法融合的多属性智能决策方法。
技术介绍
[0002]计算机仿真推演是作战模拟的有效手段,它使用代表战场及其军事力量的实体,依据战术规则,并结合概率原理,通过推演各方决策对抗,对作战过程进行逻辑研究和科学评估。随着人工智能和计算机运算能力的发展,作战推演由手工作战推演发展到现代计算机规则式推演,目前正在向智能推演阶段演进。
[0003]强化学习在即时战略游戏上的成功,为作战推演的智能化提供了可行路线。强化学习是机器学习的分支之一,主要思想是在一个特定环境下采取怎样的行动来最大化奖励。国防大学崔文华等人提出一种基于深度强化学习的作战推演决策方法框架,西北工业大学彭星光等人提出一种基于分布式强化学习的智能作战推演方法,北京理工大学薛傲等人提出一种面向作战推演的交互式强化学习算法平台。目前,作战推演中强化学习的回报值设置往往根据专家经验手工设置,但这种手工设置回报值往往难以确定具体正确的估计值,且训练长时间才能评估回报值设置的好坏;如何结合推演数据,进行客观分析,总结提炼出合适的回报值,已成为影响强化学习训练效果和收敛速度的重要问题。
[0004]多属性决策(Multiple Attribute Decision Making,MADM)是在综合考量各项属性评价结果基础上,选出最优方案的一种决策方法,是与多个属性有关的有限方案选择问题,在工业设计、经济决策、工程管理等众多领域有着广 ...
【技术保护点】
【技术特征摘要】
1.基于熵权法和强化学习算法融合的多属性智能决策方法,包括以下步骤:步骤1:确定方案集和属性集确定方案集和属性集是多属性决策的首要问题,设多属性决策问题的方案集为A={A1,A2,...,A
n
},属性集为G={G1,G2,G3,...,G
m
},方案A
i
对属性G
j
的属性值为y
ij
(i=1,2,...,n,j=1,2,...,m),由y
ij
构成了决策矩阵Y
(nxm)
;方案集是决策的客观对象,决策矩阵为决策方案提供了基础信息,各种分析方法均以决策矩阵作为分析的基础;在作战推演系统中,将一个目标视作一个决策方案,方案集A由对方所有目标构成,例如舰艇、潜艇、飞机等;决策准则是对方对我方保卫目标的威胁程度;属性集G包括各种影响威胁度的属性,本发明取G={目标距离威胁,目标攻击威胁,目标速度威胁,环境指标威胁,目标防御值};通过获取到的实际数据,利用合理的量化方法可以得到决策矩阵Y;步骤2:多属性指标威胁量化合理的指标量化是获得科学评估结果的基础;目标威胁评估作为推演中辅助决策的重要部分,评估结果直接影响智能体AI的有效性;不同类型指标采用不同的威胁量化方法;(1)目标距离指标威胁量化蓝方舰艇j相对于红方舰艇i的综合目标距离指标威胁量化值φ
ij
(x,y)的计算公式为:式中,O(x,y)为夺控点坐标;τ
common
为舰艇实体通过一格普通地形需要消耗的体力值;τ(x,y)为车辆通过特殊地形消耗的体力值;D(J,O)为蓝方坦克j到夺控点O的数量距离;D
max
为想定边界最大数量距离;D
ij
为坦克i和坦克j之间的格子距离;ψ
i
(x,y)为蓝方坦克j对于红方坦克i的目标距离的威胁量化;为蓝方坦克j相对于红方坦克i的夺控威胁值;(2)目标速度指标威胁量化设空中目标的最大速度V
air
‑
max
,水面舰艇目标最大速度为V
tank
‑
max
,潜艇目标的最大速度V
sol
‑
max
,设空中目标T
j
与我方评估节点W
i
的相对速度大小为V
ij
,按照目标类型分别进行量化,速度威胁度T
vij
为:式中,...
【专利技术属性】
技术研发人员:卫翔,刘星璇,杨家轩,周航程,侯文姝,
申请(专利权)人:中国人民解放军海军潜艇学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。