一种基于深度强化学习的多智能体自主决策方法技术

技术编号：39329386 阅读：9 留言：0更新日期：2023-11-12 16:06

本发明专利技术公开一种基于深度强化学习的多智能体自主决策方法，应用于多智能体深度强化学习技术领域，针对现有技术在决策过程中未能充分地使用经验数据的问题；本发明专利技术通过收集智能体与环境交互生成的经验，以及奖励重塑模块优化环境即时奖励，缓存于本地经验回放池中；然后合并本地经验回放池中的历史经验数据到全局经验回放池PT

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的多智能体自主决策方法

[0001]本专利技术属于兵棋AI
，特别涉及一种多智能体自主决策技术。

技术介绍

[0002]深度强化学习技术在自然语言处理、游戏AI和机器人控制等领域不断取得突破，从击败游戏职业战队的OpenAI
‑
Five，帮助生物学家发现未知蛋白质的AlphaFold，到与人聊天并进行答疑解惑的ChatGPT，以深度强化学习为代表的人工智能技术使智能体的自主决策和控制成为了可能。
[0003]目前，深度强化学习算法主要可以分为以下三类：值函数方法、策略梯度方法以及策略值函数方法。值函数方法中代表性的算法包括IQL、VDN、QMIX等，通过不同的分解方法来利用联合动作值函数训练每个智能体的策略网络。策略梯度方法中的REINFORCE、IPPO、PPO、COMA等算法通过重要性采样、梯度裁剪等方式降低策略方差，加快策略模型的求解。策略值函数方法中的Actor
‑
Critic、TRPO、MAPPO等算法通过裁剪因子、分布式数据采集等技术提高算法对在线数据的使用效率，提高多智能体自主决策的能力。
[0004]如何在兵棋推演等实时对抗环境中利用深度强化学习技术构建多智能体的自主决策模型是当前研究的热点之一，其研究主要集中于数据使用效率和环境奖励重塑等方面。在数据使用效率方面，PER、DPER、双经验重放池等优先经验回放方法被相继提出，通过时间差分误差等量化经验的重要性，提高强化学习算法的数据使用效率。针对实时多智能体环境中即时奖励稀疏

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的多智能体自主决策方法，其特征在于，应用场景包括：地图、地图中心的夺控点、己方智能体、敌方智能体；己方智能体与敌方智能体拥有相同型号和数量的坦克、战车和步兵，以夺取控制的夺控点为任务；决策方法包括以下步骤：S1、使用一个公共的神经网络作为目标策略网络Target
‑
Actor、每个智能体的策略网络Actor，并通过硬编码的方式将智能体的编号及类型作为区分智能体的环境信息提供给目标策略网络Target
‑
Actor进行训练学习，目标策略网络Target
‑
Actor为不同的智能体生成不同的对抗策略；每个智能体的策略网络Actor通过对环境的局部观测信息o
i
进行决策，输出相应的动作分布和动作a
i
，同时环境对智能体的动作产生即时奖励S2、奖励重塑模块对即时奖励进行重塑，得到R
t
；S3、根据重塑后的R
t
，得到智能体与环境的交互产生的经验数据；并基于二级经验队列的全局经验回放池PT
‑
Buffer来存储和维护每个智能体的历史经验数据；S4、通过概率求和树从全局经验回放池PT
‑
Buffer中采集训练样本数据；S5、根据步骤S4得到的训练样本数据对目标策略网络和全局评价网络进行训练；S6、将训练得到的目标策略网络参数同步到每个智能体的策略网络Actor。2.根据权利要求1所述的一种基于深度强化学习的多智能体自主决策方法，其特征在于，所述经验数据表示为[S,O,A,R,S
′
,A
′
]，其中，S表示当前时间步的全局状态空间集，R表示智能体当前时间步的重塑后的奖励集，O表示智能体当前时间步的局部观测信息集，A表示智能体当前时间步的动作信息集，S
′
表示下一时间步的全局状态空间集，A
′
表示智能体下一时间步的动作信息集。3.根据权利要求2所述的一种基于深度强化学习的多智能体自主决策方法，其特征在于，全局状态空间包括夺控点信息、地图信息和实时裁决信息，所述夺控点信息具体为：所有夺控点的位置、分值、是否被控制；所述地图信息具体为：地图的大小、地图每个位置的地形和高度；所述实时裁决信息具体为：环境当前的时间步、己方净胜分、己方智能体的数量。4.根据权利要求3所述的一种基于深度强化学习的多智能体自主决策方法，其特征在于，智能体的局部观测信息包括：夺控点位置、地图大小、敌我净胜分、当前时间步；己方位置、血量、弹药量；敌方位置、血量。5.根据权利要求4所述的一种基于深度强化学习的多智能体自主决策方法，其特征在于，公共的神经网络的结构为：包含一个由32核5
×
5卷积层、64核3
×
3的卷积层、128核1
×
1的卷积层组成的主干网络，一个256维全连接层以及一个12维的全连接层。6.根据权利要求5所述的一种基于深度强化学习的多智能体自主决策方法，其特征在于，全局评价网络结构为：包括动作值函数网络和混合网络；其中动作值函数网络包括进行特征提取与融合的主干网络，1个256维全连接层和1个1维的全连接层，其中主干网络包括32核5
×
5卷积层、64核3
×
3的卷积层、128核1
×
1的卷积层；混合网络包括多个特...

【专利技术属性】
技术研发人员：王帅，蔡子阳，林峰，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人