基于强化学习的兵棋多实体异步协同决策方法和装置制造方法及图纸

技术编号：34495785 阅读：13 留言：0更新日期：2022-08-10 09:15

本申请属于智能决策技术领域，涉及基于强化学习的兵棋多实体异步协同决策方法和装置，方法包括：获取兵棋推演环境以及多实体异步协同决策问题，对多实体异步协同决策问题进行建模分析，得到初始模型；根据初始模型，采用多智能体深度强化学习算法，建立智能体网络模型和混合评估网络模型；对智能体网络模型和混合评估网络模型进行训练，得到协同决策框架；通过设置加权算子或通过多步回报优化多智能体深度强化学习算法，重构多智能体深度强化学习算法的损失函数；采用重构的损失函数更新协同决策框架；根据更新后的协同决策框架，对多实体的异步协同进行决策。本申请能够实现兵棋推演中多实体异步协同的决策。中多实体异步协同的决策。中多实体异步协同的决策。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的兵棋多实体异步协同决策方法和装置

[0001]本申请涉及智能决策
，特别是涉及基于强化学习的兵棋多实体异步协同决策方法和装置。

技术介绍

[0002]兵棋推演是一种利用兵棋进行模拟战争活动的过程。兵棋玩家使用代表环境和军事力量的棋盘和棋子，依据特定的军事规则和概率论原理，模拟战争对抗，对作战方案进行过程推演和评估优化。国防大学兵棋团队研制了战略战役兵棋系统，并指出了人工智能技术应用到兵棋推演中需要解决的关键性问题——智能态势感知。早期的兵棋智能体设计主要利用人类高水平玩家推演经验形成知识库，进而实现给定状态下的行为决策，称之为规则智能体。利用OODA环是设计规则智能体一种方式，在OODA环中的决策模块通常基于行为树或有限状态机等框架编程实现。
[0003]随着智能体在游戏领域战胜了人类高水平玩家后，部分兵棋推演领域的研究人员开始思考如何将现有的人工智能技术迁移到兵棋推演中，设计能够对抗甚至超越人类玩家的兵棋智能体。2017年，在全国兵棋推演大赛中，中科院自动化所研究的CASIA先知1.0系统以7:1的成绩击败了人类八强选手。在2020年，中国科学院自动化所研究的AlphaWar引入了监督学习和自博弈技术实现了联合策略的学习，并且在与人类选手的对抗中通过了图灵测试。深度强化学习兼具深度学习的感知能力和强化学习的决策能力，近年来，部分学者开始尝试将深度强化学习算法应用到兵棋智能体的设计中。
[0004]在兵棋推演中，需要多个异构算子相互配合最大化集体得分，完成兵棋推演的最终任务。兵棋类...

【技术保护点】

【技术特征摘要】
1.基于强化学习的兵棋多实体异步协同决策方法，其特征在于，包括：获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题，对所述多实体异步协同决策问题进行建模分析，得到初始模型；根据所述初始模型，采用多智能体深度强化学习算法，建立智能体网络模型和混合评估网络模型；根据所述智能体网络模型和混合评估网络模型进行循环计算，根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练，得到所述多实体异步协同决策问题的协同决策框架；通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制，或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制，重构所述多智能体深度强化学习算法的损失函数；采用重构的损失函数更新所述协同决策框架；根据更新后的协同决策框架，对多实体的异步协同进行决策。2.根据权利要求1所述的方法，其特征在于，通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制，或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制，重构所述多智能体深度强化学习算法的损失函数包括：将所述混合评估网络模型设计为第一子网络和第二子网络，分别通过所述第一子网络和所述第二子网络，计算更新目标和联合状态动作估计值并比较，得到加权算子；根据所述加权算子，重构所述多智能体深度强化学习算法的损失函数。3.根据权利要求2所述的方法，其特征在于，通过设置加权算子优化所述多智能体深度强化学习算法的损失函数计算机制，或通过多步回报优化所述多智能体深度强化学习算法的奖励回报计算机制，重构所述多智能体深度强化学习算法的损失函数还包括：将多步回放数据结合得到多步回报，通过多步回报计算更新目标；根据所述更新目标，重构所述多智能体深度强化学习算法的损失函数。4.根据权利要求2或3所述的方法，其特征在于，获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题，对所述多实体异步协同决策问题进行建模分析，得到初始模型包括：获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题，通过马尔科夫决策过程，对所述多实体异步协同决策问题进行建模分析，得到一元组；根据所述兵棋推演环境，对所述一元组进行更新，得到初始模型。5.根据权利要求4所述的方法，其特征在于，根据所述智能体网络模型和混合评估网络...

【专利技术属性】
技术研发人员：张煜，蒋超远，罗俊仁，李婷婷，刘运，杨景照，刘果，李鑫，刘屹峰，陈佳星，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人