一种软双评估器梯度融合的多智能体强化学习方法技术

技术编号:34637025 阅读:36 留言:0更新日期:2022-08-24 15:11
本发明专利技术公开了一种软双评估器梯度融合的多智能体强化学习方法,属于人工智能领域。本发明专利技术提出一种利用个体奖励知识解决合作型多智能体强化学习中团队奖励稀疏的问题的新方法,在该方法中每个智能体使用两个评估器分别学习个体奖励和团队奖励,共同指导智能体策略的学习。在两个评估器之间,使用软目标迁移的方式,在前期使用个体奖励评估器指导策略关注于学习个体奖励,然后逐步用团队奖励引导策略转向团队目标的学习。该方法可以在不偏原始团队目标的情况下,通过从个体奖励的引导,有效解决团队奖励稀疏难以学习的多智能体合作问题,并且在一般问题上也能利用个体奖励知识促进团队奖励目标的学习。进团队奖励目标的学习。进团队奖励目标的学习。

【技术实现步骤摘要】
一种软双评估器梯度融合的多智能体强化学习方法


[0001]本专利技术属于人工智能领域,特别是涉及合作型多智能体强化学习领域。

技术介绍

[0002]近年来,人工智能领域飞速发展,各界对于智能决策的需求不断涌现,希望智能体能够像人一样自主地从环境的反馈中试错学习,从而获得突破人类知识限制的决策能力。完全合作型多智能体任务由于和现实问题更加契合,获得了较多的关注。在合作型的多智能体任务中,多个智能体需要通过合作实现团队目标,最大化获得的累积团队奖励。但是,由于多智能体问题的复杂性,团队任务的目标往往很难学习,甚至由于团队奖励过于稀疏而使得现有算法无法从中学习到有效的合作策略。
[0003]目前在现实应用中,解决这一问题的一种常用方法,是根据领域先验知识设计一些辅助智能体学习合作任务的个体奖励。通过对个体奖励的学习,智能体能够学习一些有利于合作的行为或技能。通常有两种直接的方式来利用个体奖励:第一种方法是将所有智能体的个体奖励和团队奖励相加,并将其平均分配给各个智能体。第二种方法是每个智能体将自己的个体奖励和团队奖励相加,作为自己的总奖励。然本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,包括如下步骤:步骤1、建立多智能体合作问题模型,设计问题中的个体奖励函数以及团队奖励函数,创建并初始化环境对象;步骤2、将环境中每个决策单位都视为一个智能体,并为每个智能体都初始化它的神经网络;步骤3、算法控制所有的智能体与环境进行交互,并存储交互得到的序列数据;步骤4、利用存储的序列数据对所有智能体的神经网络进行训练;步骤5、智能体利用训练好的神经网络与环境进行交互,完成对问题的求解。2.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤1中:待解决的多智能体合作问题需要有两个奖励函数:个体奖励函数和团队奖励函数,个体奖励函数从单个智能体的角度出发,为每个智能体提供了其执行某个动作后所能获得的个体奖励,鼓励智能体学习各自的技能;而团队奖励函数则从团队的角度出发,提供了表示多智能体合作问题目标的团队奖励,帮助智能体解决该合作问题。3.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤2中:多智能体合作问题中存在着个需要控制的决策单位,将每个决策单位都视为一个智能体,并利用算法进行控制;选择一个Actor

Critic结构的多智能体强化学习算法作为本发明实现的基准算法,这些算法包括但不限于IPPO、MAPPO、MADDGP等;依据选择的基准算法,为每个智能体构建并初始化一个用于决策的Actor神经网络和两个用于评估的Critic神经网络;Actor神经网络用于对智能体的策略进行学习,帮助智能体选择动作进行决策;两个Critic神经网络分别代表了学习个体奖励和学习团队奖励的两个评估器,用于指导Actor神经网络的训练更新;同时依据选择的基准算法,为这些神经网络构建对应的目标网络,这些目标网络的参数通过复制对应的原本神经网络的参数来进行初始化。4.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤3中,智能体按照如下步骤完成与环境的一次交互:步骤3

1、当前时刻,环境处于状态,每个智能体从环境中获得自己的局部观察,智能体的局部观察记为;步骤3

2、依据选择的基准算法,每个智能体利用自己的Actor神经网络选择采样时所执行的动作,并作用于环境,智能体的动作记为;步骤3

3、环境在接收到所有智能体的动作后,会依据其状态转移函数得到下一时刻的状态并进行转移;步骤3

4、环境依据其个体奖励函数为每个智能体提供个体奖励,智能体的个体奖励记为,同时环境依据其团队奖励函数为所有智能体反馈一个团队奖励;
不断重复地进行步骤3

1到步骤3

【专利技术属性】
技术研发人员:王丽胡裕靖高阳解宇陈广
申请(专利权)人:网易杭州网络有限公司江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1