【技术实现步骤摘要】
本专利技术涉及多智能体强化学习和兵棋推演,特别是涉及一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质。
技术介绍
1、多智能体智能决策问题是多智能体系统领域的核心研究内容。兵棋推演作为多智能体智能决策问题的重要实例,在多智能体系统领域的研究中受到广泛关注。对于此类多智能体博弈问题,其具有大规模的离散决策空间和灵活多变的环境态势,如何让强化学习算法有效应对这些挑战从而应用于此类问题是一个重要的研究课题。
2、近年来,许多基于集中式训练分布式执行框架的多智能体强化学习的算法试图解决多智能体博弈问题,如基于联合动作值函数分解(qmix)的一系列值函数逼近算法。然而在兵棋推演的环境中,由于兵棋推演场景面临的如下挑战,所以各个智能体动作的协同关系很难直接通过值函数分解表示,直接基于所有动作的联合值函数分解的集中式训练算法效率较差;其中,兵棋推演场景面临的挑战包括:
3、大规模状态空间:兵棋推演场景一般包含近5000个六边网格,双方玩家各自有6个算子。每个算子与地图中的夺控点状态信息是不断变化的,大致估计,每个
...【技术保护点】
1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:
2.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述步骤S1中对动作空间进行建模包括:
3.根据权利要求2所述的多智能体强化学习智能决策方法,其特征在于,所述基于六角格的任务包括:智能体在候选六角格集合中选中一个格子,然后执行与所选中的格子相关的任务;其中,与所选中格子相关的任务包括:在所选择的格子处上车、下车、夺控或隐蔽;所述基于敌方算子的任务包括:移动到与所述敌方算子间的距离在预定距离范围内的格子,进行停止、射击或隐蔽。
4.根据权利要求1
...【技术特征摘要】
1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:
2.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述步骤s1中对动作空间进行建模包括:
3.根据权利要求2所述的多智能体强化学习智能决策方法,其特征在于,所述基于六角格的任务包括:智能体在候选六角格集合中选中一个格子,然后执行与所选中的格子相关的任务;其中,与所选中格子相关的任务包括:在所选择的格子处上车、下车、夺控或隐蔽;所述基于敌方算子的任务包括:移动到与所述敌方算子间的距离在预定距离范围内的格子,进行停止、射击或隐蔽。
4.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,通过与环境交互来构建所述上下层分层决策网络,其中:
5.根据权利要求1所述的多智能体强化学习智能决策方法,其特征在于,所述上下层分层决策网络通过rnn网络实现。
6...
【专利技术属性】
技术研发人员:钱智毅,黄在斌,洪万福,谢思满,皇甫潇潇,
申请(专利权)人:厦门渊亭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。