一种基于深度强化学习的多智能体自主决策方法技术

技术编号:39329386 阅读:9 留言:0更新日期:2023-11-12 16:06
本发明专利技术公开一种基于深度强化学习的多智能体自主决策方法,应用于多智能体深度强化学习技术领域,针对现有技术在决策过程中未能充分地使用经验数据的问题;本发明专利技术通过收集智能体与环境交互生成的经验,以及奖励重塑模块优化环境即时奖励,缓存于本地经验回放池中;然后合并本地经验回放池中的历史经验数据到全局经验回放池PT

【技术实现步骤摘要】
一种基于深度强化学习的多智能体自主决策方法


[0001]本专利技术属于兵棋AI
,特别涉及一种多智能体自主决策技术。

技术介绍

[0002]深度强化学习技术在自然语言处理、游戏AI和机器人控制等领域不断取得突破,从击败游戏职业战队的OpenAI

Five,帮助生物学家发现未知蛋白质的AlphaFold,到与人聊天并进行答疑解惑的ChatGPT,以深度强化学习为代表的人工智能技术使智能体的自主决策和控制成为了可能。
[0003]目前,深度强化学习算法主要可以分为以下三类:值函数方法、策略梯度方法以及策略值函数方法。值函数方法中代表性的算法包括IQL、VDN、QMIX等,通过不同的分解方法来利用联合动作值函数训练每个智能体的策略网络。策略梯度方法中的REINFORCE、IPPO、PPO、COMA等算法通过重要性采样、梯度裁剪等方式降低策略方差,加快策略模型的求解。策略值函数方法中的Actor

Critic、TRPO、MAPPO等算法通过裁剪因子、分布式数据采集等技术提高算法对在线数据的使用效率,提高多智能体自主决策的能力。
[0004]如何在兵棋推演等实时对抗环境中利用深度强化学习技术构建多智能体的自主决策模型是当前研究的热点之一,其研究主要集中于数据使用效率和环境奖励重塑等方面。在数据使用效率方面,PER、DPER、双经验重放池等优先经验回放方法被相继提出,通过时间差分误差等量化经验的重要性,提高强化学习算法的数据使用效率。针对实时多智能体环境中即时奖励稀疏、滞后,策略模型不易求解的问题。随机网络、专家知识迁移、模仿学习等奖励重塑方法被相继提出,以指导决策模型的学习。
[0005]虽然深度强化学习的研究已经有了许多突破,但在兵棋AI领域中仍存在一些问题:
[0006](1)在多智能体环境中如何充分地使用经验数据,提高智能体对环境的探索能力和对历史经验的使用效率。
[0007](2)在奖励稀疏的多智能体环境中,如何设计具有一定鲁棒性的奖励函数,降低实时环境稀疏奖励对决策模型收敛速度的负面影响,提高其泛化能力。

技术实现思路

[0008]为解决上述技术问题,本专利技术提出一种基于深度强化学习的多智能体自主决策方法,
[0009]本专利技术采用的技术方案为:一种基于深度强化学习的多智能体自主决策方法,应用场景包括:地图中心的夺控点、己方智能体、敌方智能体;己方智能体与敌方智能体拥有相同型号和数量的坦克、战车和步兵,以夺取控制的夺控点为任务;决策方法包括以下步骤:
[0010]S1、使用一个公共的神经网络作为目标策略网络Target

Actor、每个智能体的策略网络Actor,并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息
提供给目标策略网络Target

Actor进行训练学习,目标策略网络Target

Actor为不同的智能体生成不同的对抗策略;
[0011]每个智能体的策略网络Actor通过对环境的局部观测信息o
i
进行决策,输出相应的动作分布和动作a
i
,同时环境对智能体的动作产生即时奖励
[0012]S2、奖励重塑模块对即时奖励进行重塑,得到R
t

[0013]S3、根据重塑后的R
t
,得到智能体与环境的交互产生的经验数据;并基于二级经验队列的全局经验回放池PT

Buffer来存储和维护每个智能体的历史经验数据;
[0014]S4、通过概率求和树从全局经验回放池PT

Buffer中采集训练样本数据;
[0015]S5、根据步骤S4得到的训练样本数据对目标策略网络和全局评价网络进行训练;
[0016]S6、将训练得到的目标策略网络参数同步到每个智能体的策略网络Actor。
[0017]所述经验数据表示为[S,O,A,R,S

,A

],其中,S表示当前时间步的全局状态空间集,R表示智能体当前时间步的重塑后的奖励集,O表示智能体当前时间步的局部观测信息集,A表示智能体当前时间步的动作信息集,S

表示下一时间步的全局状态空间集,A

表示智能体下一时间步的动作信息集。
[0018]全局状态空间包括夺控点信息、地图信息和实时裁决信息,所述夺控点信息具体为:所有夺控点的位置、分值、是否被控制;所述地图信息具体为:地图的大小、地图每个位置的地形和高度;所述实时裁决信息具体为:环境当前的时间步、己方净胜分、己方智能体的数量。
[0019]智能体的局部观测信息包括:夺控点位置、地图大小、敌我净胜分、当前时间步;己方位置、血量、弹药量;敌方位置、血量。策略网络Actor的结构为:包含一个由32核5
×
5,64核3
×
3的卷积层,128核1
×
1的卷积层组成的主干网络、一个256维全连接层和一个12维的全连接层。
[0020]全局评价网络Critic由动作值函数网络和混合网络组成;其中动作值函数网络由进行特征提取与融合的主干网络,2个256维和1维的全连接层组成,其中主干网络由32核5
×
5,64核3
×
3的卷积层,128核1
×
1的卷积层组成;混合网络主要由多个特征映射模块H组成,其中特征映射模块由一个256维的全连接层和一个64维的全连接层组成。
[0021]奖励重塑模块具体为:奖励重塑模块使用环境因子构造的内部奖励函数模块来重塑环境的即时奖励;其中内部奖励函数模块重塑环境即时奖励的过程为:利用敌方数量、弹药数和智能体与夺控点间的距离构成内部奖励函数来实时调整环境即时奖励的分布。
[0022]本专利技术的有益效果:本专利技术的基于深度强化学习的多智能体自主决策算法,采用了改进的时间差分误差TD

N以及概率求和树来采样有利的训练数据,使得多智能体决策模型的数据使用效率得到了提高。同时,通过利用环境因子构造的自适应奖励函数调节环境即时奖励的分布,提高了深度强化学习算法在多智能体环境中对稀疏奖励的适应能力,加快了决策模型的学习速度。本专利技术的方法使得兵棋AI在推演环境中,具有了充分地探索环境和利用历史经验数据进行策略优化的能力,使得模型在训练过程中能够较快收敛,并获得较高的平均回报。
附图说明
[0023]图1是本专利技术实施例中基于深度强化学习的多智能体自主决策算法的示意图;
[0024]图2是本专利技术实施例中PTAIR

MAPPO的网络框架结构图;
[0025]图3是本专利技术实施例中即时奖励重塑的流程图;
[0026]图4是本专利技术实施例中全局经验回放池的结构示意图;
[0027]图5是本专利技术实施例中概率求和树的结构示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的多智能体自主决策方法,其特征在于,应用场景包括:地图、地图中心的夺控点、己方智能体、敌方智能体;己方智能体与敌方智能体拥有相同型号和数量的坦克、战车和步兵,以夺取控制的夺控点为任务;决策方法包括以下步骤:S1、使用一个公共的神经网络作为目标策略网络Target

Actor、每个智能体的策略网络Actor,并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息提供给目标策略网络Target

Actor进行训练学习,目标策略网络Target

Actor为不同的智能体生成不同的对抗策略;每个智能体的策略网络Actor通过对环境的局部观测信息o
i
进行决策,输出相应的动作分布和动作a
i
,同时环境对智能体的动作产生即时奖励S2、奖励重塑模块对即时奖励进行重塑,得到R
t
;S3、根据重塑后的R
t
,得到智能体与环境的交互产生的经验数据;并基于二级经验队列的全局经验回放池PT

Buffer来存储和维护每个智能体的历史经验数据;S4、通过概率求和树从全局经验回放池PT

Buffer中采集训练样本数据;S5、根据步骤S4得到的训练样本数据对目标策略网络和全局评价网络进行训练;S6、将训练得到的目标策略网络参数同步到每个智能体的策略网络Actor。2.根据权利要求1所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,所述经验数据表示为[S,O,A,R,S

,A

],其中,S表示当前时间步的全局状态空间集,R表示智能体当前时间步的重塑后的奖励集,O表示智能体当前时间步的局部观测信息集,A表示智能体当前时间步的动作信息集,S

表示下一时间步的全局状态空间集,A

表示智能体下一时间步的动作信息集。3.根据权利要求2所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,全局状态空间包括夺控点信息、地图信息和实时裁决信息,所述夺控点信息具体为:所有夺控点的位置、分值、是否被控制;所述地图信息具体为:地图的大小、地图每个位置的地形和高度;所述实时裁决信息具体为:环境当前的时间步、己方净胜分、己方智能体的数量。4.根据权利要求3所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,智能体的局部观测信息包括:夺控点位置、地图大小、敌我净胜分、当前时间步;己方位置、血量、弹药量;敌方位置、血量。5.根据权利要求4所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,公共的神经网络的结构为:包含一个由32核5
×
5卷积层、64核3
×
3的卷积层、128核1
×
1的卷积层组成的主干网络,一个256维全连接层以及一个12维的全连接层。6.根据权利要求5所述的一种基于深度强化学习的多智能体自主决策方法,其特征在于,全局评价网络结构为:包括动作值函数网络和混合网络;其中动作值函数网络包括进行特征提取与融合的主干网络,1个256维全连接层和1个1维的全连接层,其中主干网络包括32核5
×
5卷积层、64核3
×
3的卷积层、128核1
×
1的卷积层;混合网络包括多个特...

【专利技术属性】
技术研发人员:王帅蔡子阳林峰
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1