【技术实现步骤摘要】
一种基于模型的多智能体强化学习方法
本专利技术涉及多智能体强化学习方法领域,尤其涉及一种基于模型的多智能体强化学习方法。
技术介绍
强化学习是机器学习的一个子领域,其目标基于所接收到的环境信息进行决策行动,从而获得最大化的期望收益。其中,深度强化学习利用神经网络对值函数、策略函数进行逼近,在许多任务上取得了超越人类平均水平的表现。在多智能体场景中,每一个智能体都在学习和改进,导致环境不稳定,并且多个智能体之间的关系可能是竞争、合作或者介于两者之间。各智能体之间如何共享信息、共享何种信息也成为难点。基于以上多智能体场景引入的问题,单智能体的方法不能直接应用于多智能体场景中。与单智能体算法类似,多智能体强化学习的算法分为无模型以及有模型两大类。其中无模型的多智能体强化学习算法面临更严峻的样本效率问题。基于模型的多智能体强化学习方法,目的在于提高多智能体强化学习算法的样本效率。也就是减少各智能体与环境的交互数目以及各智能体之间的交互数目。通常来讲,目前强化学习在落地到具体应用中时普遍存在样本效率低的情况。在多智能体强化学习 ...
【技术保护点】
1.一种基于模型的多智能体强化学习方法,其特征在于,在多智能体环境中,对所述多智能体环境和策略建模,生成所述多智能体的虚拟轨迹,利用所述虚拟轨迹更新所述多智能体的策略。/n
【技术特征摘要】
1.一种基于模型的多智能体强化学习方法,其特征在于,在多智能体环境中,对所述多智能体环境和策略建模,生成所述多智能体的虚拟轨迹,利用所述虚拟轨迹更新所述多智能体的策略。
2.如权利要求1所述的基于模型的多智能体强化学习方法,其特征在于,所述多智能体进行分布式决策。
3.如权利要求2所述的基于模型的多智能体强化学习方法,其特征在于,对于当前智能体i,记对手智能体集合为{-i},所述当前智能体i的动作依赖于所述对手智能体的联合策略π-i以及当前状态st,令时刻t时所述对手智能体的联合动作为则所述当前智能体的动作表示为为其中πi为所述当前智能体的策略。
4.如权利要求3所述的基于模型的多智能体强化学习方法,其特征在于,所述多智能体都持有独立的多智能体环境模型以及对手策略模型集合
5.如权利要求4所述的基于模型的多智能体强化学习方法,其特征在于,生成所述虚拟轨迹时,使用动态选择对手模型的方法。
6.如权利要求5所述的基于模型的多智能体强化学习方法,,其特征在于,对于所述当前智能体i,对各个对手策略的模型表示为其中j∈{-i},所述动态选择对手模型的方法包含两个步骤:
步骤a、对于每个对手策略模型选取一部分最近发生的真实交互数据,计算策略模型的泛化误差,记为∈j;
步骤b、给定所述虚拟轨迹的长度K,则对于对手智能体j,在前nj=步使用对所述对手智能体策略的模型来产生所述对手智能...
【专利技术属性】
技术研发人员:张伟楠,王锡淮,沈键,周铭,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。