【技术实现步骤摘要】
本专利技术属于多智能体强化学习领域,主要涉及一种基于零阶优化的分级式拓扑下的多智能体强化学习方法。
技术介绍
1、资源分配在多智能体系统中有很广泛的应用,例如智能体之间的信息资源调度以及智能体之间网络通信资源调度及优化等。然而随着智能体数目的增多,状态以及动作联合空间的维度会呈指数型增长,导致直接将现有的强化学习算法应用到多智能体系统时会出现维度爆炸的问题,如果对多智能体系统中的每个智能体都应用单智能体的强化学习算法,又会出现收敛结果差,训练效果不理想的情况。因此,扩展强化学习至多智能体系统具有很高的研究难度。目前,根据多智能体系统的网络拓扑结构设计相应的多智能体强化学习方法是目前多智能体强化学习的解决方法之一。
2、零阶优化是目前解决多智能体强化学习的一种优化方法,根据拓扑结构的不同,基于零阶优化的多智能体强化学习方法可以分为全连接式,集中式和分布式三种方法。全连接式拓扑结构下,系统中每个智能体都会和其他所有的智能体进行零阶梯度信息的交流,从而收集到全局的零阶梯度信息,利用全局信息进行各自策略的学习以达到最优策略;集中式拓
...【技术保护点】
1.一种基于零阶优化的分级式拓扑下的多智能体强化学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多智能体强化学习方法,其特征在于,所述的步骤2具体包括如下子步骤:
3.根据权利要求1所述的多智能体强化学习方法,其特征在于,所述的步骤3具体包括以下子步骤:
4.根据权利要求3所述的多智能体强化学习方法,其特征在于,所述步骤3.3中,组长将交流后获得的组内目标函数聚合值分享给组内的智能体具体为:将聚合值除以组内的智能体个数Cm,组内每个智能体收到的全局目标函数估计值
5.根据权利要求1所述的多智能体强化学习方法
...【技术特征摘要】
1.一种基于零阶优化的分级式拓扑下的多智能体强化学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多智能体强化学习方法,其特征在于,所述的步骤2具体包括如下子步骤:
3.根据权利要求1所述的多智能体强化学习方法,其特征在于,所述的步骤3具体包括以下子步骤:
4.根据权利要求3所述的多智能体强化学习方法,其特征在于,所述步骤3.3中,组长将交流后获得的组内目标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。