面向兵棋推演的智能决策方法、装置及存储介质制造方法及图纸

技术编号:41325122 阅读:51 留言:0更新日期:2024-05-13 15:03
本发明专利技术提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质,该方法包括:步骤S1,对兵棋推演场景进行建模;步骤S2,根据对兵棋推演场景的建模,构建兵棋推演场景的上下层分层决策网络;步骤S3,通过强化学习对上下层分层决策网络进行分层网络训练;其中,对上层决策网络针对所有多智能体采用集中式训练的方式进行训练;对下层决策网络针对各智能体采用独立训练的方式进行训练;步骤S4,利用完成训练的多智能体进行对战决策。针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景,本发明专利技术实施例的技术方案提高了整体训练的效率,可以实现特定兵棋推演想定下的有效决策。

【技术实现步骤摘要】

本专利技术涉及多智能体强化学习和兵棋推演,特别是涉及一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质。


技术介绍

1、多智能体智能决策问题是多智能体系统领域的核心研究内容。兵棋推演作为多智能体智能决策问题的重要实例,在多智能体系统领域的研究中受到广泛关注。对于此类多智能体博弈问题,其具有大规模的离散决策空间和灵活多变的环境态势,如何让强化学习算法有效应对这些挑战从而应用于此类问题是一个重要的研究课题。

2、近年来,许多基于集中式训练分布式执行框架的多智能体强化学习的算法试图解决多智能体博弈问题,如基于联合动作值函数分解(qmix)的一系列值函数逼近算法。然而在兵棋推演的环境中,由于兵棋推演场景面临的如下挑战,所以各个智能体动作的协同关系很难直接通过值函数分解表示,直接基于所有动作的联合值函数分解的集中式训练算法效率较差;其中,兵棋推演场景面临的挑战包括:

3、大规模状态空间:兵棋推演场景一般包含近5000个六边网格,双方玩家各自有6个算子。每个算子与地图中的夺控点状态信息是不断变化的,大致估计,每个算子的状态空间为50本文档来自技高网...

【技术保护点】

1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:

2.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述步骤S1中对动作空间进行建模包括:

3.根据权利要求2所述的多智能体强化学习智能决策方法,其特征在于,所述基于六角格的任务包括:智能体在候选六角格集合中选中一个格子,然后执行与所选中的格子相关的任务;其中,与所选中格子相关的任务包括:在所选择的格子处上车、下车、夺控或隐蔽;所述基于敌方算子的任务包括:移动到与所述敌方算子间的距离在预定距离范围内的格子,进行停止、射击或隐蔽。

4.根据权利要求1所述的多智能体强化学...

【技术特征摘要】

1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:

2.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述步骤s1中对动作空间进行建模包括:

3.根据权利要求2所述的多智能体强化学习智能决策方法,其特征在于,所述基于六角格的任务包括:智能体在候选六角格集合中选中一个格子,然后执行与所选中的格子相关的任务;其中,与所选中格子相关的任务包括:在所选择的格子处上车、下车、夺控或隐蔽;所述基于敌方算子的任务包括:移动到与所述敌方算子间的距离在预定距离范围内的格子,进行停止、射击或隐蔽。

4.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,通过与环境交互来构建所述上下层分层决策网络,其中:

5.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述上下层分层决策网络通过rnn网络实现。

6...

【专利技术属性】
技术研发人员:钱智毅黄在斌洪万福谢思满皇甫潇潇
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1