一种基于零阶优化的分级式拓扑下的多智能体强化学习方法技术

技术编号：41296977 阅读：19 留言：0更新日期：2024-05-13 14:45

本发明专利技术提出一种基于零阶优化的分级式拓扑下的多智能体强化学习方法，包括，对环境中的所有智能体进行预分组并构建一种分级式拓扑交流结构；智能体与环境交互获取到本地的目标函数信息；通过分级拓扑交流结构对本地目标函数进行聚集并处理；最后智能体利用全局目标函数估计信息计算获得零阶梯度，更新策略网络梯度。本发明专利技术提供了一种基于零阶优化的分级式拓扑下的多智能体强化学习方法，该方法能在保证收敛性能的基础上，提升了交流效率，分担了智能体的通信压力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多智能体强化学习领域，主要涉及一种基于零阶优化的分级式拓扑下的多智能体强化学习方法。

技术介绍

1、资源分配在多智能体系统中有很广泛的应用，例如智能体之间的信息资源调度以及智能体之间网络通信资源调度及优化等。然而随着智能体数目的增多，状态以及动作联合空间的维度会呈指数型增长，导致直接将现有的强化学习算法应用到多智能体系统时会出现维度爆炸的问题，如果对多智能体系统中的每个智能体都应用单智能体的强化学习算法，又会出现收敛结果差，训练效果不理想的情况。因此，扩展强化学习至多智能体系统具有很高的研究难度。目前，根据多智能体系统的网络拓扑结构设计相应的多智能体强化学习方法是目前多智能体强化学习的解决方法之一。

2、零阶优化是目前解决多智能体强化学习的一种优化方法，根据拓扑结构的不同，基于零阶优化的多智能体强化学习方法可以分为全连接式，集中式和分布式三种方法。全连接式拓扑结构下，系统中每个智能体都会和其他所有的智能体进行零阶梯度信息的交流，从而收集到全局的零阶梯度信息，利用全局信息进行各自策略的学习以达到最优策略；集中式拓...

【技术保护点】

1.一种基于零阶优化的分级式拓扑下的多智能体强化学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述的步骤2具体包括如下子步骤：

3.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述的步骤3具体包括以下子步骤：

4.根据权利要求3所述的多智能体强化学习方法，其特征在于，所述步骤3.3中，组长将交流后获得的组内目标函数聚合值分享给组内的智能体具体为：将聚合值除以组内的智能体个数Cm，组内每个智能体收到的全局目标函数估计值

5.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述的...

【技术特征摘要】

1.一种基于零阶优化的分级式拓扑下的多智能体强化学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述的步骤2具体包括如下子步骤：

3.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述的步骤3具体包括以下子步骤：

4.根据权利要求3所述的多智能体强化学习方法，其特征在于，所述步骤3.3中，组长将交流后获得的组内目标...

【专利技术属性】
技术研发人员：郑荣濠，何顺帆，刘妹琴，张森林，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人