一种基于模型的多智能体强化学习方法技术

技术编号：26971532 阅读：17 留言：0更新日期：2021-01-06 00:02

本发明专利技术公开了一种基于模型的多智能体强化学习方法，属于多智能体强化学习领域，包括对多智能体环境和策略建模，生成多智能体的虚拟轨迹，利用虚拟轨迹更新多智能体的策略。本发明专利技术中各智能体分布式进行决策，分别对多智能体环境与对手智能体策略建模，并利用习得的模型生成虚拟轨迹，能够有效提高多智能体强化学习的采样效率，同时减少智能体交互次数降低设备损坏风险，提高了将分布式多智能体强化学习方法部署在多智能体任务的可行性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模型的多智能体强化学习方法
本专利技术涉及多智能体强化学习方法领域，尤其涉及一种基于模型的多智能体强化学习方法。
技术介绍
强化学习是机器学习的一个子领域，其目标基于所接收到的环境信息进行决策行动，从而获得最大化的期望收益。其中，深度强化学习利用神经网络对值函数、策略函数进行逼近，在许多任务上取得了超越人类平均水平的表现。在多智能体场景中，每一个智能体都在学习和改进，导致环境不稳定，并且多个智能体之间的关系可能是竞争、合作或者介于两者之间。各智能体之间如何共享信息、共享何种信息也成为难点。基于以上多智能体场景引入的问题，单智能体的方法不能直接应用于多智能体场景中。与单智能体算法类似，多智能体强化学习的算法分为无模型以及有模型两大类。其中无模型的多智能体强化学习算法面临更严峻的样本效率问题。基于模型的多智能体强化学习方法，目的在于提高多智能体强化学习算法的样本效率。也就是减少各智能体与环境的交互数目以及各智能体之间的交互数目。通常来讲，目前强化学习在落地到具体应用中时普遍存在样本效率低的情况。在多智能体强化学习...

【技术保护点】
1.一种基于模型的多智能体强化学习方法，其特征在于，在多智能体环境中，对所述多智能体环境和策略建模，生成所述多智能体的虚拟轨迹，利用所述虚拟轨迹更新所述多智能体的策略。/n

【技术特征摘要】
1.一种基于模型的多智能体强化学习方法，其特征在于，在多智能体环境中，对所述多智能体环境和策略建模，生成所述多智能体的虚拟轨迹，利用所述虚拟轨迹更新所述多智能体的策略。

2.如权利要求1所述的基于模型的多智能体强化学习方法，其特征在于，所述多智能体进行分布式决策。

3.如权利要求2所述的基于模型的多智能体强化学习方法，其特征在于，对于当前智能体i，记对手智能体集合为{-i}，所述当前智能体i的动作依赖于所述对手智能体的联合策略π-i以及当前状态st，令时刻t时所述对手智能体的联合动作为则所述当前智能体的动作表示为为其中πi为所述当前智能体的策略。

4.如权利要求3所述的基于模型的多智能体强化学习方法，其特征在于，所述多智能体都持有独立的多智能体环境模型以及对手策略模型集合

5.如权利要求4所述的基于模型的多智能体强化学习方法，其特征在于，生成所述虚拟轨迹时，使用动态选择对手模型的方法。

6.如权利要求5所述的基于模型的多智能体强化学习方法，，其特征在于，对于所述当前智能体i，对各个对手策略的模型表示为其中j∈{-i}，所述动态选择对手模型的方法包含两个步骤：
步骤a、对于每个对手策略模型选取一部分最近发生的真实交互数据，计算策略模型的泛化误差，记为∈j；
步骤b、给定所述虚拟轨迹的长度K，则对于对手智能体j，在前nj＝步使用对所述对手智能体策略的模型来产生所述对手智能...

【专利技术属性】
技术研发人员：张伟楠，王锡淮，沈键，周铭，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人