一种兵棋推演的策略生成方法、电子设备、存储介质技术

技术编号：41013559 阅读：34 留言：0更新日期：2024-04-18 21:50

本实施例提出一种兵棋推演的策略生成方法、电子设备和存储介质。通过基于每个智能体的状态空间和动作空间构建多智能体的联合状态空间、联合动作空间、联合奖励函数和状态转移函数，使多智能体可以在团队层面进行学习和决策，将多智能体决策问题转化为生成动作序列的策略生成问题，大幅降低了多智能体决策的复杂度，同时，控制每个智能体在决策时除了基于智能体的观测信息外还需考虑其它智能体的动作序列，避免由于多智能体之间的策略不可传递导致每个智能体在决策时陷入局部最优，使得多智能体可以输出全局最优解，同时避免多智能体协作过程中的不平稳问题，有效提高了兵棋推演场景下多智能体决策的平稳性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体强化学习，特别是涉及一种兵棋推演的策略生成方法、电子设备、存储介质

技术介绍

1、兵棋推演是一种可以用于模拟军事部署、推演战斗过程、预测战斗结果，从而评估战术可行性、战斗的胜负、人员以及装备损害程度的重要手段，随着信息技术和军事技术的高速发展，兵棋推演逐渐演变成海、陆、空、天、网络空间和电磁空间的多主体联合作战的过程，如何规划和协调多个作战主体的作战能力，成为兵棋推演中的重要研究问题，通过人工智能模型进行兵棋推演，利用计算机资源为指挥者提供决策支持具有深远意义。

2、但是由于兵棋推演以多主体联合作战为主，而各个主体的决策是相对独立的，且每个主体能观测到的信息都是有限的，这导致通过人工智能模型进行兵棋推演的过程具有策略的不可传递性、不完美信息、多主体同时决策等特性，不完美信息是指每个决策主体无法获取完整的博弈环境的信息，难以做出最优决策，奖赏稀疏会导致智能体无法确定所执行的动作是否有利于完成任务，难以学习到有效的策略且模型学习缓慢难以收敛，多主体之间的策略不可传递性会导致每个决策主体在决策时容易陷入局部最...

【技术保护点】

1.一种兵棋推演的策略生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述对战方的所有所述智能体的所述状态空间和所述动作空间构建所述对战方的联合观测空间、联合动作空间、联合奖励函数和状态转移函数，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述采样所述回放经验训练所述智能体的策略网络和评价网络，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述观测表征序列确定动作序列，包括：

6.根据权利要求1所述的方法，其...

【技术特征摘要】

1.一种兵棋推演的策略生成方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述采样所述回放经验训练所述智能体的策略网络和评价网络，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述观测表征序列确定动作序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述对手策略选择机制控制所述智能体和所述对手智能体对抗并生成策略以构建所述智能体的策略池，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

【专利技术属性】
技术研发人员：李论通，聂建政，许芬，彭佩玺，田永鸿，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人