基于强化学习的兵棋多实体异步协同决策方法和装置制造方法及图纸

技术编号:34495785 阅读:13 留言:0更新日期:2022-08-10 09:15
本申请属于智能决策技术领域,涉及基于强化学习的兵棋多实体异步协同决策方法和装置,方法包括:获取兵棋推演环境以及多实体异步协同决策问题,对多实体异步协同决策问题进行建模分析,得到初始模型;根据初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;对智能体网络模型和混合评估网络模型进行训练,得到协同决策框架;通过设置加权算子或通过多步回报优化多智能体深度强化学习算法,重构多智能体深度强化学习算法的损失函数;采用重构的损失函数更新协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。本申请能够实现兵棋推演中多实体异步协同的决策。中多实体异步协同的决策。中多实体异步协同的决策。

【技术实现步骤摘要】
基于强化学习的兵棋多实体异步协同决策方法和装置


[0001]本申请涉及智能决策
,特别是涉及基于强化学习的兵棋多实体异步协同决策方法和装置。

技术介绍

[0002]兵棋推演是一种利用兵棋进行模拟战争活动的过程。兵棋玩家使用代表环境和军事力量的棋盘和棋子,依据特定的军事规则和概率论原理,模拟战争对抗,对作战方案进行过程推演和评估优化。国防大学兵棋团队研制了战略战役兵棋系统,并指出了人工智能技术应用到兵棋推演中需要解决的关键性问题——智能态势感知。早期的兵棋智能体设计主要利用人类高水平玩家推演经验形成知识库,进而实现给定状态下的行为决策,称之为规则智能体。利用OODA环是设计规则智能体一种方式,在OODA环中的决策模块通常基于行为树或有限状态机等框架编程实现。
[0003]随着智能体在游戏领域战胜了人类高水平玩家后,部分兵棋推演领域的研究人员开始思考如何将现有的人工智能技术迁移到兵棋推演中,设计能够对抗甚至超越人类玩家的兵棋智能体。2017年,在全国兵棋推演大赛中,中科院自动化所研究的CASIA先知1.0系统以7:1的成绩击败了人类八强选手。在2020年,中国科学院自动化所研究的AlphaWar引入了监督学习和自博弈技术实现了联合策略的学习,并且在与人类选手的对抗中通过了图灵测试。深度强化学习兼具深度学习的感知能力和强化学习的决策能力,近年来,部分学者开始尝试将深度强化学习算法应用到兵棋智能体的设计中。
[0004]在兵棋推演中,需要多个异构算子相互配合最大化集体得分,完成兵棋推演的最终任务。兵棋类似于游戏,近年来以深度强化学习为基础的游戏AI(Artificial Intelligence)AlphaGo、AlphaStar战胜了人类高水平玩家,因此,在兵棋推演与人工智能的交叉研究领域,基于强化学习的兵棋智能决策方法成为了热门研究问题。
[0005]综上,基于强化学习的兵棋智能决策技术取得了诸多研究成果,但是在实际应用过程中存在两类需要解决的关键性问题:其一,兵棋推演中是多实体共同参与对抗,目前大多数兵棋智能决策算法都是基于单智能体强化学习算法设计。在兵棋对抗环境中,多算子协同问题缺乏统一的决策流程框架。
[0006]其二,兵棋中多实体的异构性导致多智能体协作的异步性,即不同智能体的基本动作执行时长不一致。这种异步性导致现有的多智能体强化学习算法难以有效的解决兵棋多实体异步协作问题。

技术实现思路

[0007]基于此,有必要针对上述技术问题,提供一种基于强化学习的兵棋多实体异步协同决策方法和装置,能够基于强化学习算法,实现兵棋推演中多实体异步协同的决策。
[0008]基于强化学习的兵棋多实体异步协同决策方法,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。
[0009]在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。
[0010]在其中一个实施例中,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数还包括:将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。
[0011]在其中一个实施例中,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。
[0012]在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算包括:根据所述智能体网络模型,输入当前观测和上一时刻动作信息,输出每个实体的状态动作价值函数,并得到每个实体的执行动作对应的状态动作值;根据所述混合评估网络模型,输入所述状态动作值,输出当前时刻联合状态动作价值。
[0013]在其中一个实施例中,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架包括:将计算结果存入经验池,在所述经验池中采样,通过最小化损失函数和计算回报对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架。
[0014]在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:
根据所述兵棋推演环境中返回的战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型。
[0015]在其中一个实施例中,根据所述智能体网络模型和混合评估网络模型进行循环计算还包括:兵棋推演环境接收并执行各个实体的联合动作,然后返回下一时间步战场态势信息、即时奖励以及游戏终止判定标志符号;根据所述战场态势信息执行状态掩码操作,得到实体的观测,并将所述观测输入所述智能体网络模型;所述智能体网络模型输出各个实体的联合动作至兵棋推演环境并进行循环计算。
[0016]基于强化学习的兵棋多实体异步协同决策装置,包括:获取模块,用于获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;建模模块,用于根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;重构模块,用于通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的兵棋多实体异步协同决策方法,其特征在于,包括:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数;采用重构的损失函数更新所述协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。2.根据权利要求1所述的方法,其特征在于,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数包括:将所述混合评估网络模型设计为第一子网络和第二子网络,分别通过所述第一子网络和所述第二子网络,计算更新目标和联合状态动作估计值并比较,得到加权算子;根据所述加权算子,重构所述多智能体深度强化学习算法的损失函数。3.根据权利要求2所述的方法,其特征在于,通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制,或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制,重构所述多智能体深度强化学习算法的损失函数还包括:将多步回放数据结合得到多步回报,通过多步回报计算更新目标;根据所述更新目标,重构所述多智能体深度强化学习算法的损失函数。4.根据权利要求2或3所述的方法,其特征在于,获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型包括:获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,通过马尔科夫决策过程,对所述多实体异步协同决策问题进行建模分析,得到一元组;根据所述兵棋推演环境,对所述一元组进行更新,得到初始模型。5.根据权利要求4所述的方法,其特征在于,根据所述智能体网络模型和混合评估网络...

【专利技术属性】
技术研发人员:张煜蒋超远罗俊仁李婷婷刘运杨景照刘果李鑫刘屹峰陈佳星
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1