一种基于分层表征的多智能体集中式决策方法、系统及存储介质技术方案

技术编号:38150808 阅读:8 留言:0更新日期:2023-07-13 09:14
本发明专利技术公开了一种基于分层表征的多智能体集中式决策方法、系统及存储介质。该方法采用基于强化学习的策略网络实现,具体包括:将多智能体感知到的态势信息输入策略网络,策略网络的第一模块基于态势信息的数据类型进行分层特征提取,对每层态势信息数据分别进行处理后进行特征融合,输出处理后的态势信息;策略网络的第二模块对处理后的态势信息进一步处理;策略网络的第三模块按照动作参数类型进行分层决策,依次处理输出各项动作参数,得到最终输出的联合动作。本发明专利技术将多智能体集中式决策时带来的高维度态势信息和动作信息采取基于类型的分层方法降低维度,有效提升了高维空间下的搜索效率。空间下的搜索效率。空间下的搜索效率。

【技术实现步骤摘要】
一种基于分层表征的多智能体集中式决策方法、系统及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及基于多智能体强化学习和分层表征的决策优化方法、系统及存储介质。

技术介绍

[0002]近年来,以深度学习(Deep Learning,DL)为核心的智能技术取得了长足的进步,特别是以深度强化学习(Deep Reinforcement Learning,DRL)为代表的智能方法在解决雅达利游戏、棋类博弈对抗、即时策略游戏(Real

Time Strategy,RTS)等决策问题上取得了众多超越人类水平的成果,使得面向自主认知的智能决策有望得到进一步发展,并取得关键性突破。强化学习(Reinforcement Learning,RL)作为解决序贯决策问题的重要方法,其通过与环境的交互试错来学习策略,恰好契合了人类的经验学习和决策思维方式,可以有效解决样本数据获取难等问题。
[0003]单智能体系统无法实现多个决策者之间的相互协作或竞争关系,往往需要多智能体通过协作来求解。多智能体系统(Multi—Agent System,MAS)是当前分布式AI领域的研究热点,其主要是通过研究智能体之间的协同和交互问题,用以解决复杂实时动态多智能体环境下的任务调度、资源分配、行为协调以及冲突消解等协同问题。
[0004]多智能体系统通常可以分为多智能体分散式决策和多智能体集中式决策两种方法。文献1公开了一种多智能体分散式决策方法,该方法中多个智能体具有高度的自治能力,自行处理信息、规划与决策、执行指令,与其它智能体相互通讯以协调各自行为,使得该方法存在协作效率低,全局目标实现难保证的问题。采用多智能体集中式决策方法可以有效的提高决策效率,但是多智能体集中决策方法在解决类似即时策略游戏或兵棋推演类决策问题时依然会面临以下两个问题。
[0005]一是高维状态动作空间问题。在即时策略游戏或兵棋推演问题中,由于地理环境范围广、态势信息数据多源、作战实体众多以及时间跨度长等原因,决策的状态动作空间会呈指数级增长,会使得传统的多智能体强化学习方法的效率低下。文献2中提出采用分层强化学习(Hierarchical reinforcement learning,HRL)的方法可以有效解决维度灾难的问题,其中公开了基于选项、分层抽象、值函数分解、端到端的分层学习方式。但是上述公开的方式对于即时策略游戏或兵棋推演问题中应当如何进行分层以最大化高维空间的搜索效率依然是智能决策必须要解决的难题。
[0006]二是探索与利用的平衡。在深度强化学习方法中,未知策略空间的探索与已知策略空间的利用是一个相互矛盾的问题。同时在高维的未知战场空间、诡异多变的对手情况下高效探索尝试采取不同的动作以收集更多的战场未知区域信息和对手策略信息,利用已知策略信息下做出最佳决策能够在敌我博弈对抗过程中抢占先机,提升态势优势,进而取得竞争优势。因此,在基于深度强化学习的智能决策过程中,如何平衡对未知策略空间的探索和已知策略空间的利用,提高策略的多样性和鲁棒性,是一个亟待解决的关键问题。
[0007]现有技术文献:文献1:CN114896899A,“一种基于信息交互的多智能体分散式决策方法及系统”;文献2:“多智能体分层强化学习综述”,殷昌盛 等,“智能系统学报”,第15卷第4期,第646

655页,2020年7月。

技术实现思路

[0008]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种基于分层表征的多智能体集中式决策方法、系统及存储介质,用以解决上述高维空间的搜索效率问题和探索与利用的平衡问题中的至少一个。
[0009]为实现上述目的,按照本专利技术的第一个方面,提供了一种基于分层表征的多智能体集中式决策方法,其特征在于,所述决策方法采用基于强化学习的策略网络实现,所述决策方法具体包括以下步骤:S1.将多智能体感知到的态势信息输入所述策略网络,所述策略网络的第一模块基于所述态势信息的数据类型进行分层特征提取,对每层所述态势信息数据分别进行处理后进行特征融合,输出处理后的态势信息;S2.所述策略网络的第二模块对所述处理后的态势信息进一步处理;S3.所述策略网络的第三模块按照动作参数类型进行分层决策,依次处理输出各项动作参数,得到最终输出的联合动作。
[0010]进一步地,上述基于分层表征的多智能体集中式决策方法,其步骤S1具体包括:S11.对所述态势信息按照数据类型进行分层,得到分层后的态势信息;S12.根据所述分层后的态势信息的数据特点,设计不同的神经网络分别进行处理,并提取每一层态势信息相应的特征向量;S13.并行输出所述特征向量,并将所述特征向量共同输入深度长短期记忆网络,输出所述处理后的态势信息。
[0011]进一步地,上述基于分层表征的多智能体集中式决策方法,其步骤S11具体包括:将态势信息简化抽象分层,其中,所述分层至少包括地理信息、实体信息和标量信息;其中所述地理信息至少包括作战地域、地形地貌、海拔高程;所述实体信息至少包括作战实体类型、位置信息、状态信息;所述标量信息至少包括作战时间、敌我双方战损情况、作战任务及完成情况。
[0012]进一步地,上述基于分层表征的多智能体集中式决策方法,其步骤S12具体包括:至少采用卷积神经网络处理地理信息,至少采用深度自注意力网络处理实体信息,至少采用多层感知机处理标量信息。
[0013]进一步地,上述基于分层表征的多智能体集中式决策方法,其步骤S3具体包括:接收所述步骤S2中所述第二模块处理后的信息并进行分层设计,分为N个决策动作,其中N≥2且N为正整数;对于第i层决策动作(1≤i≤N),根据该层动作特点设计相应的神经网络进行处理,得到第i层输出的决策动作a
ti
;将a
ti
传递至第i+1层进行相应的处理;所述联合动作表示为A
t
=(a
t1
,a
t2
,...,a
tN
)。
[0014]进一步地,上述基于分层表征的多智能体集中式决策方法,其步骤S3还包括:将所述第二模块处理后的信息至少分为动作类型、执行时间、执行单位、执行地域和动作参数;对上述动作类型、执行时间、执行单位、执行地域和动作参数依次分别采用残差多层感知机、多层感知机、指针网络、反卷积网络和多层感知机网络训练,最后按照顺序依次进行决策,形成所述联合动作。
[0015]进一步地,上述基于分层表征的多智能体集中式决策方法,还包括:所述策略网络通过随机策略的方式输出所述联合动作;所述随机策略是指所述策略网络的输出分布为,其中为均值m,方差n的正态分布,S
t
为t时刻的态势,θ
μ
为以θ为参数的策略网络μ;所述联合动作的获得方式为以概率ε随机选择动作信息,或从中采样得到动作信息。
[0016]进一步地,上述基于分层表征的多智能体集中式决策方法,还包括:在所述随机策略基础上,引入最大策略熵;所述最大策略熵的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层表征的多智能体集中式决策方法,其特征在于,所述决策方法采用基于强化学习的策略网络实现,所述决策方法具体包括以下步骤:S1.将多智能体感知到的态势信息输入所述策略网络,所述策略网络的第一模块基于所述态势信息的数据类型进行分层特征提取,对每层所述态势信息数据分别进行处理后进行特征融合,输出处理后的态势信息;S2.所述策略网络的第二模块对所述处理后的态势信息进一步处理;S3.所述策略网络的第三模块按照动作参数类型进行分层决策,依次处理输出各项动作参数,得到最终输出的联合动作。2.如权利要求1所述的一种基于分层表征的多智能体集中式决策方法,其特征在于,所述步骤S1具体包括:S11.对所述态势信息按照数据类型进行分层,得到分层后的态势信息;S12.根据所述分层后的态势信息的数据特点,设计不同的神经网络分别进行处理,并提取每一层态势信息相应的特征向量;S13.并行输出所述特征向量,并将所述特征向量共同输入深度长短期记忆网络,输出所述处理后的态势信息。3.如权利要求2所述的一种基于分层表征的多智能体集中式决策方法,其特征在于,所述步骤S11具体包括:将态势信息简化抽象分层,其中,所述分层至少包括地理信息、实体信息和标量信息;其中所述地理信息至少包括作战地域、地形地貌、海拔高程;所述实体信息至少包括作战实体类型、位置信息、状态信息;所述标量信息至少包括作战时间、敌我双方战损情况、作战任务及完成情况。4.如权利要求3所述的一种基于分层表征的多智能体集中式决策方法,其特征在于,所述步骤S12具体包括:至少采用卷积神经网络处理地理信息,至少采用深度自注意力网络处理实体信息,至少采用多层感知机处理标量信息。5.如权利要求1所述的一种基于分层表征的多智能体集中式决策方法,其特征在于,所述步骤S3具体包括:接收所述步骤S2中所述第二模块处理后的信息并进行分层设计,分为N个决策动作,其中N≥2且N为正整数;对于第i层决策动作(1≤i≤N),根据该层动作特点设计相应的神经网络进行处理,得到第i层输出的决策动作a
ti
;将a
ti
传递至第i+1层进行相应的处理;所述联合动作表示为A
t
=(a
t1<...

【专利技术属性】
技术研发人员:殷昌盛杨若鹏杨远涛鲁义威韦文夏卢稳新何渤
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1