【技术实现步骤摘要】
一种基于深度强化学习的对抗仿真推演方法
本专利技术属于对抗推演
,尤其涉及一种基于深度强化学习的对抗仿真推演方法。
技术介绍
兵棋推演是对现实战争的虚拟再现,计算机兵棋推演则是将兵棋推演与计算机集合在一起,利用计算机的计算能力按照兵棋的相关规则进行推演,从而模拟战争的进行。兵棋推演目的在于模拟对抗进行过程、预测对抗的发生和结果、通过评估指挥员在其中的指挥达到提高指挥艺术的效果。多智能体系统(Muti-agentSystem:MAS)是在同一个环境中由多个交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的问题,其中的智能可以由方法,函数,过程,算法或强化学习来实现。多智能体系统因其较强的实用性和扩展性,在机器人合作、分布式控制、资源管理、协同决策支持系统、自主化对抗系统、数据挖掘等领域都得到了广泛的应用。强化学习(ReinforcementLearning:RL)是机器学习的一个重要分支,其本质是描述和解决智能体在与环境的交互过程中学习策略以最大化回报或实现特定目标的问题。与监督学习不 ...
【技术保护点】
1.一种基于深度强化学习的对抗仿真推演方法,其特征在于,该方法包括以下步骤:/n在对抗终端进行人机操作和机器自主学习操作,通过人-机对抗训练生成训练样本数据、机-机对抗训练大量训练样本数据,通过深度卷积神经网络生成单智能体的奖励值;/n深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;/n将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。/n
【技术特征摘要】
1.一种基于深度强化学习的对抗仿真推演方法,其特征在于,该方法包括以下步骤:
在对抗终端进行人机操作和机器自主学习操作,通过人-机对抗训练生成训练样本数据、机-机对抗训练大量训练样本数据,通过深度卷积神经网络生成单智能体的奖励值;
深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;
将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。
2.根据权利要求1所述的基于深度强化学习的对抗仿真推演方法,其特征在于,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策,其具体步骤为:
深度卷积神经网络的输入数据包括人-机对抗的图片数据、机-机对抗的图片数据,输出为所述多智能体联合奖励值{r1,r2,...,rn},其中n为智能体数目;
在单个智能体中,定义最优化的值函数Q*(s,α)为:
其中s'是下一时刻的状态;定义一个四元组(s,α,r,s'),包含当前时刻的状态s,系统执行的决策行动α,系统在执行决策行动α后获取到的奖励值r=R(s,α),所述奖励值r由深度卷积神经网络获得,和下一时刻的状态s',λ为Q*(s,α)的权值,其中所述状态s,决策行动α,在不同状态和动作下的Qπ(s,α)值,π为状态s和决策行动α的集合,A为决策行动α的集合,即所述联合决策行动;
在多智能体中,获取联合决策行动最优下的Q值:
多智能体有As种组合的动作,在这As中组合中选择最优的Q值;
当某状态下的Q值越大时,则说明该决策行动最佳,即生成所述多智能体对抗决策。
3.根据权利要求1或2任意一项所述基于深度强化学习的对抗仿真推演方法...
【专利技术属性】
技术研发人员:曾向荣,钟志伟,张政,刘衍,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。