面向兵棋推演的智能决策方法、装置及存储介质制造方法及图纸

技术编号：41325122 阅读：2 留言：0更新日期：2024-05-13 15:03

本发明专利技术提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质，该方法包括：步骤S1，对兵棋推演场景进行建模；步骤S2，根据对兵棋推演场景的建模，构建兵棋推演场景的上下层分层决策网络；步骤S3，通过强化学习对上下层分层决策网络进行分层网络训练；其中，对上层决策网络针对所有多智能体采用集中式训练的方式进行训练；对下层决策网络针对各智能体采用独立训练的方式进行训练；步骤S4，利用完成训练的多智能体进行对战决策。针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景，本发明专利技术实施例的技术方案提高了整体训练的效率，可以实现特定兵棋推演想定下的有效决策。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体强化学习和兵棋推演，特别是涉及一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质。

技术介绍

1、多智能体智能决策问题是多智能体系统领域的核心研究内容。兵棋推演作为多智能体智能决策问题的重要实例，在多智能体系统领域的研究中受到广泛关注。对于此类多智能体博弈问题，其具有大规模的离散决策空间和灵活多变的环境态势，如何让强化学习算法有效应对这些挑战从而应用于此类问题是一个重要的研究课题。

2、近年来，许多基于集中式训练分布式执行框架的多智能体强化学习的算法试图解决多智能体博弈问题，如基于联合动作值函数分解(qmix)的一系列值函数逼近算法。然而在兵棋推演的环境中，由于兵棋推演场景面临的如下挑战，所以各个智能体动作的协同关系很难直接通过值函数分解表示，直接基于所有动作的联合值函数分解的集中式训练算法效率较差；其中，兵棋推演场景面临的挑战包括：

3、大规模状态空间：兵棋推演场景一般包含近5000个六边网格，双方玩家各自有6个算子。每个算子与地图中的夺控点状态信息是不断变化的，大致估计，每个算子的状态空间为50006×2·36×2+2＝1.1677e51，状态空间以及算子的观测空间都是高维的；

4、复杂的动作空间：一般的兵棋推演场景包括11种动作：空动作(null)、移动(move)、隐蔽(hide)、占领(occupy)、射击(shoot)、引导射击(guide-shoot)、间瞄射击(indirect-shoot)、上车(get-on)、下车(get-off)、解除压

5、长线决策：一般情况下，兵棋推演场景的每一局游戏持续至少1600个决策步骤，且许多非射击类动作促成的情景可能在动作执行很久以后才出现，因此长时间序列和动作延迟为强化学习模型的训练提供难度。

技术实现思路

1、本专利技术的实施例提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质，以解决在针对具有高维状态空间、观测空间和动作空间的兵棋推演场景下直接基于所有动作的联合值函数分解的集中式训练算法效率较差的技术问题。

2、为了实现上述目的，一方面，提供了一种面向兵棋推演的多智能体强化学习智能决策方法，包括：

3、步骤s1，对兵棋推演场景进行建模，包括对兵棋推演场景的智能体集合进行定义及对状态空间、观测空间和动作空间进行建模；

4、步骤s2，根据对兵棋推演场景的建模，构建兵棋推演场景的上下层分层决策网络，其中，将上下层分层决策分别视为马尔可夫决策过程，上下层分层决策网络的决策结果一起用于形成环境所需的复合操作；其中，上层决策网络用于从任务集中为智能体选择可用的任务；下层决策网络用于根据上层决策网络选择的任务来选择智能体要执行的动作；

5、步骤s3，通过强化学习对上下层分层决策网络进行分层网络训练；其中，对上层决策网络针对所有多智能体采用集中式训练的方式进行训练；对下层决策网络针对各智能体采用独立训练的方式进行训练；

6、步骤s4，利用完成训练的多智能体进行对战决策。

7、优选地，所述的多智能体强化学习智能决策方法，步骤s1中对动作空间进行建模包括：

8、基于任务和行为上下两层的分层动作对兵棋推演场景中的动作进行重定义；其中，上层动作为任务，任务包括：基于六角格的任务和基于敌方算子的任务；下层动作为行为，行为是离散动作，示出了智能体当前时刻的移动方向，包括：代表周围六角格的六个方向和停止。

9、优选地，所述的多智能体强化学习智能决策方法，基于六角格的任务包括：智能体在候选六角格集合中选中一个格子，然后执行与所选中的格子相关的任务；其中，与所选中格子相关的任务包括：在所选择的格子处上车、下车、夺控或隐蔽；基于敌方算子的任务包括：移动到与敌方算子间的距离在预定距离范围内的格子，进行停止、射击或隐蔽。

10、优选地，所述的多智能体强化学习智能决策方法，其中，通过与环境交互来构建上下层分层决策网络，其中：

11、在环境输出当前时刻t的全局系统状态st后，控制方从st中获取其可见的原始观测信息，并对原始观测信息进行结构化提取后将每个智能体的观测信息和可选任务集合传给每个智能体的上层决策网络；然后，上层决策网络再将每个智能体的观测信息与每个智能体的上层决策网络所选择的任务一起传给下层决策网络；最后根据智能体的上层决策网络所选择的任务以及下层决策网络所选择的行为得到相应智能体的最终动作；控制方将其所有智能体的联合动作一起传回环境，以由环境根据双方动作推进并给出下一时刻t+1的全局系统状态st+1，并将当前步控制方的联合回报rt传回上下层分层决策网络。

12、优选地，所述的多智能体强化学习智能决策方法，其中，上下层分层决策网络通过rnn网络实现。

13、优选地，所述的多智能体强化学习智能决策方法，其中，步骤s3中，对上层决策网络采用值分解方式进行训练。

14、优选地，所述的多智能体强化学习智能决策方法，其中，对上层决策网络采用值分解方式进行训练时，使用如下第一损失函数：

15、

16、其中，第一损失函数根据上层经验池缓冲b1∑中的样本对上层决策网络进行更新，每个样本b1∑的内容为<s,o,g,rσ,s′,o′,g′>，其中o＝{o1,o2,…,on}为所有智能体当前时刻的观测向量，o′为所有智能体下一时刻的观测向量，n为智能体的个数，g＝{g1,g2,…,gn}为所有智能体当前时刻的上层联合动作,g′为所有智能体下一时刻的上层联合动作，s为当前时刻全局系统状态，s′为下一时刻的全局系统状态，r∑为联合回报，g为所有智能体当前时刻的联合可选任务集，g′为所有智能体下一时刻的联合可选任务集，第一损失函数中的θ为上层联合值函数的估计网络需训练的参数，第一损失函数中的为用于更新估计网络的对应目标网络的参数；γ为折扣因子；其中，采用贝尔曼更新方式更新上层决策网络。

17、优选地，所述的多智能体强化学习智能决策方法，步骤s3中，使用深度q网络对下层决策网络进行训练；其中，对下层决策网络进行训练采用如下第二损失函数：

18、

19、其中，第二损失函数根据下层经验池缓冲b2l中的样本对网络做更新，其中每个样本b2l的内容为<o,g,d,rl,o′>，其中，样本b2l中的o为单个智能体当前时刻的观测信息，o′为单个智能体下一时刻的观测信息，g为对应的单个智能体上层决策网络选择的当前时刻要求完成的任务，g′为对应的单个智能体上层决策网络下一时刻要求完成的任务，d代表下层决策对应的当前时刻的动作，d′代表下层决策对应的下一时刻的动作，rl为对对应的单个智能体的下层回报，其中，rl中增加了对上层决策网络任务完成度的评估，根据上传决策网络任务的完成度的不同，给予不本文档来自技高网...

【技术保护点】

1.一种面向兵棋推演的多智能体强化学习智能决策方法，其特征在于，包括：

2.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述步骤S1中对动作空间进行建模包括：

3.根据权利要求2所述的多智能体强化学习智能决策方法，其特征在于，所述基于六角格的任务包括：智能体在候选六角格集合中选中一个格子，然后执行与所选中的格子相关的任务；其中，与所选中格子相关的任务包括：在所选择的格子处上车、下车、夺控或隐蔽；所述基于敌方算子的任务包括：移动到与所述敌方算子间的距离在预定距离范围内的格子，进行停止、射击或隐蔽。

4.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，通过与环境交互来构建所述上下层分层决策网络，其中：

5.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述上下层分层决策网络通过RNN网络实现。

6.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述步骤S3中，对所述上层决策网络采用值分解方式进行训练。

7.根据权利要求6所述的多智能体强化学习智能决策

8.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述步骤S3中，使用深度Q网络对所述下层决策网络进行训练；其中，对所述下层决策网络进行训练采用如下第二损失函数：

9.一种面向兵棋推演的多智能体强化学习智能决策装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如权利要求1至8任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器执行以实现如权利要求1至8任一所述的方法。

...

【技术特征摘要】

1.一种面向兵棋推演的多智能体强化学习智能决策方法，其特征在于，包括：

2.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述步骤s1中对动作空间进行建模包括：

4.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，通过与环境交互来构建所述上下层分层决策网络，其中：

5.根据权利要求1所述的多智能体强化学习智能决策方法，其特征在于，所述上下层分层决策网络通过rnn网络实现。

6...

【专利技术属性】
技术研发人员：钱智毅，黄在斌，洪万福，谢思满，皇甫潇潇，
申请(专利权)人：厦门渊亭信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人