基于联合策略多样性的多智能体探索方法和设备技术

技术编号:39431652 阅读:19 留言:0更新日期:2023-11-19 16:16
本发明专利技术提供一种基于联合策略多样性的多智能体探索方法和设备,该方法包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据,从多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中多智能体的观测数据与输出动作所对应的第一策略概率,确定任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励;基于任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新任意一组目标仿真数据中多智能体的输出动作对应的初始团队奖励,然后更新多智能体的参数和第一策略概率,通过利用策略层面的信息来引导智能体的探索行为,提高了智能体动作的多样性,提升了智能体的探索效率。升了智能体的探索效率。升了智能体的探索效率。

【技术实现步骤摘要】
基于联合策略多样性的多智能体探索方法和设备


[0001]本专利技术涉及多智能体强化学习
,尤其涉及一种基于联合策略多样性的多智能体探索方法和设备。

技术介绍

[0002]由于许多现实世界的任务都涉及多个智能体的交互,多智能体强化学习领域得到了越来越多研究者的关注。为了提高多智能体强化学习技术的可用场景,该领域的研究者们提出了许多方法来改进算法的效率,使其有望应用到更复杂的任务中。虽然该领域的进展显著,但研究者们大多聚焦于具有密集奖励的多智能体任务。然而,在许多现实世界的任务中,智能体能获得的任务奖励往往是极端稀疏的。为了应对奖励稀疏的场景,智能体必须具备探索环境的能力。
[0003]目前的研究表明,经典的探索方法,如基于计数的探索,在多智能体场景中的效果不佳,尤其是使用神经网络参数化智能体时。这主要是因为智能体之间的复杂动态和多智能体场景中巨大的探索空间,放大了经典探索方法遇到神经网络时的脆弱性。因此,如何在多智能体场景下高效的探索,是亟需解决的问题。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提供一种基于联合策略多样性的多智能体探索方法和设备。
[0005]第一方面,本专利技术提供一种基于联合策略多样性的多智能体探索方法,包括:
[0006]获取多智能体与游戏仿真环境交互得到的多组仿真数据,每一组仿真数据包括:第t时刻所述游戏仿真环境的状态、第t时刻所述多智能体的观测数据、第t时刻所述多智能体的输出动作、第t+1时刻所述游戏仿真环境的状态、所述第t时刻所述多智能体的输出动作对应的初始团队奖励,t为大于或者等于0的整数;
[0007]从所述多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,确定所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励;
[0008]基于任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励;
[0009]在各组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励更新完成后,基于更新后的所述至少一组目标仿真数据,更新所述多智能体的参数和所述第一策略概率。
[0010]可选地,所述任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励基于以下公式确定:
[0011][0012]其中,b
t
表示所述任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励,π
mix
(a
t
|o
t
)表示所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,π
rand
表示均匀策略,为每个动作分配相同的概率,表示指示函数,β为大于0且小于或者等于1的超参数。
[0013]可选地,
[0014]所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,基于之前所有更新所述多智能体的参数的过程中的第二策略概率确定;
[0015]所述第二策略概率为之前每一次更新所述多智能体的参数的过程中,更新所述第一策略概率之后所得到的概率。
[0016]可选地,基于之前所有更新所述多智能体的参数的过程中的第二策略概率,确定所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,包括:
[0017]基于之前所有更新所述多智能体的参数的过程中的第二策略概率的平均值,确定所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率。
[0018]可选地,所述基于任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励,包括:
[0019]基于所述任意一组目标仿真数据中第t+1时刻所述游戏仿真环境的状态,修正所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励;
[0020]基于修正后的所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励。
[0021]可选地,基于以下公式修正所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励:
[0022][0023]其中,表示修正后的所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,表示指示函数,u(s
t+1
)表示所述任意一组目标仿真数据中第t+1时刻所述游戏仿真环境的状态使用基于计数的方法所计算的新颖度,c
u
为预设的新颖度阈值,b
t
表示所述任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励。
[0024]可选地,所述基于修正后的所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励,包括:
[0025]将修正后的所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,与所述任意一组目标仿真数据中所述多智能体的输出动作对
应的初始团队奖励两者之和,作为更新后的所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励。
[0026]第二方面,本专利技术还提供一种基于联合策略多样性的多智能体探索装置,包括:
[0027]获取模块,用于获取多智能体与游戏仿真环境交互得到的多组仿真数据,每一组仿真数据包括:第t时刻所述游戏仿真环境的状态、第t时刻所述多智能体的观测数据、第t时刻所述多智能体的输出动作、第t+1时刻所述游戏仿真环境的状态、所述第t时刻所述多智能体的输出动作对应的初始团队奖励,t为大于或者等于0的整数;
[0028]确定模块,用于从所述多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,确定所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励;
[0029]第一更新模块,用于基于任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励;
[0030]第二更新模块,用于在各组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励更新完成后,基于更新后的所述至少一组目标仿真数据,更新所述多智能体的参数和所述第一策略概率。
[0031]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合策略多样性的多智能体探索方法,其特征在于,包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据,每一组仿真数据包括:第t时刻所述游戏仿真环境的状态、第t时刻所述多智能体的观测数据、第t时刻所述多智能体的输出动作、第t+1时刻所述游戏仿真环境的状态、所述第t时刻所述多智能体的输出动作对应的初始团队奖励,t为大于或者等于0的整数;从所述多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,确定所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励;基于任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励;在各组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励更新完成后,基于更新后的所述至少一组目标仿真数据,更新所述多智能体的参数和所述第一策略概率。2.根据权利要求1所述的基于联合策略多样性的多智能体探索方法,其特征在于,所述任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励基于以下公式确定:其中,b
t
表示所述任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励,π
mix
(a
t
|o
t
)表示所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,π
rand
表示均匀策略,为每个动作分配相同的概率,表示指示函数,β为大于0且小于或者等于1的超参数。3.根据权利要求1或2所述的基于联合策略多样性的多智能体探索方法,其特征在于,所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,基于之前所有更新所述多智能体的参数的过程中的第二策略概率确定;所述第二策略概率为之前每一次更新所述多智能体的参数的过程中,更新所述第一策略概率之后所得到的概率。4.根据权利要求3所述的基于联合策略多样性的多智能体探索方法,其特征在于,基于之前所有更新所述多智能体的参数的过程中的第二策略概率,确定所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率,包括:基于之前所有更新所述多智能体的参数的过程中的第二策略概率的平均值,确定所述任意一组目标仿真数据中所述多智能体的观测数据与输出动作所对应的第一策略概率。5.根据权利要求1所述的基于联合策略多样性的多智能体探索方法,其特征在于,所述基于任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新所述任意一组目标仿真数据中所述多智能体的输出动作对应的初始团队奖励,包括:基于所述任意一组目标仿真数据中第t+1时刻所述游戏仿真环境的状态,修正所述任意一组目标仿真数据中所述多智能体的输出动作对应的基于联合策略多样性的团队奖励;基于修正后的所述任意一...

【专利技术属性】
技术研发人员:张俊格黄凯奇徐沛
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1