【技术实现步骤摘要】
本专利技术涉及多智能体强化学习,特别是涉及一种兵棋推演的策略生成方法、电子设备、存储介质
技术介绍
1、兵棋推演是一种可以用于模拟军事部署、推演战斗过程、预测战斗结果,从而评估战术可行性、战斗的胜负、人员以及装备损害程度的重要手段,随着信息技术和军事技术的高速发展,兵棋推演逐渐演变成海、陆、空、天、网络空间和电磁空间的多主体联合作战的过程,如何规划和协调多个作战主体的作战能力,成为兵棋推演中的重要研究问题,通过人工智能模型进行兵棋推演,利用计算机资源为指挥者提供决策支持具有深远意义。
2、但是由于兵棋推演以多主体联合作战为主,而各个主体的决策是相对独立的,且每个主体能观测到的信息都是有限的,这导致通过人工智能模型进行兵棋推演的过程具有策略的不可传递性、不完美信息、多主体同时决策等特性,不完美信息是指每个决策主体无法获取完整的博弈环境的信息,难以做出最优决策,奖赏稀疏会导致智能体无法确定所执行的动作是否有利于完成任务,难以学习到有效的策略且模型学习缓慢难以收敛,多主体之间的策略不可传递性会导致每个决策主体在决策时容易陷入局部最
...【技术保护点】
1.一种兵棋推演的策略生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述对战方的所有所述智能体的所述状态空间和所述动作空间构建所述对战方的联合观测空间、联合动作空间、联合奖励函数和状态转移函数,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述采样所述回放经验训练所述智能体的策略网络和评价网络,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述观测表征序列确定动作序列,包括:
6.根据权利
...【技术特征摘要】
1.一种兵棋推演的策略生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述对战方的所有所述智能体的所述状态空间和所述动作空间构建所述对战方的联合观测空间、联合动作空间、联合奖励函数和状态转移函数,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述采样所述回放经验训练所述智能体的策略网络和评价网络,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述观测表征序列确定动作序列,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述对手策略选择机制控制所述智能体和所述对手智能体对抗并生成策略以构建所述智能体的策略池,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
【专利技术属性】
技术研发人员:李论通,聂建政,许芬,彭佩玺,田永鸿,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。