一种软双评估器梯度融合的多智能体强化学习方法技术

技术编号:34637025 阅读:23 留言:0更新日期:2022-08-24 15:11
本发明专利技术公开了一种软双评估器梯度融合的多智能体强化学习方法,属于人工智能领域。本发明专利技术提出一种利用个体奖励知识解决合作型多智能体强化学习中团队奖励稀疏的问题的新方法,在该方法中每个智能体使用两个评估器分别学习个体奖励和团队奖励,共同指导智能体策略的学习。在两个评估器之间,使用软目标迁移的方式,在前期使用个体奖励评估器指导策略关注于学习个体奖励,然后逐步用团队奖励引导策略转向团队目标的学习。该方法可以在不偏原始团队目标的情况下,通过从个体奖励的引导,有效解决团队奖励稀疏难以学习的多智能体合作问题,并且在一般问题上也能利用个体奖励知识促进团队奖励目标的学习。进团队奖励目标的学习。进团队奖励目标的学习。

【技术实现步骤摘要】
一种软双评估器梯度融合的多智能体强化学习方法


[0001]本专利技术属于人工智能领域,特别是涉及合作型多智能体强化学习领域。

技术介绍

[0002]近年来,人工智能领域飞速发展,各界对于智能决策的需求不断涌现,希望智能体能够像人一样自主地从环境的反馈中试错学习,从而获得突破人类知识限制的决策能力。完全合作型多智能体任务由于和现实问题更加契合,获得了较多的关注。在合作型的多智能体任务中,多个智能体需要通过合作实现团队目标,最大化获得的累积团队奖励。但是,由于多智能体问题的复杂性,团队任务的目标往往很难学习,甚至由于团队奖励过于稀疏而使得现有算法无法从中学习到有效的合作策略。
[0003]目前在现实应用中,解决这一问题的一种常用方法,是根据领域先验知识设计一些辅助智能体学习合作任务的个体奖励。通过对个体奖励的学习,智能体能够学习一些有利于合作的行为或技能。通常有两种直接的方式来利用个体奖励:第一种方法是将所有智能体的个体奖励和团队奖励相加,并将其平均分配给各个智能体。第二种方法是每个智能体将自己的个体奖励和团队奖励相加,作为自己的总奖励。然而目前这种常用的简单的将两个奖励结合作为奖励信号的奖励塑形的方法,又面临着三个问题:(1)两个奖励信号的结合会改变原本学习的目标,导致学到的策略出现一些偏离我们想要目标的行为。(2)两个奖励信号的混合又涉及到混合权重的确定,而权重需要根据任务以及具体的奖励利用先验知识进行调整,实际应用中会导致陷入繁琐的调权重的工作中。(3)在合作型多智能体中任务中,奖励的混合又涉及到信度分配的问题,每个智能体的学习很容易被其他智能体的行为造成的奖励或惩罚干扰。
[0004]本专利技术从新的角度对该问题进行建模,提出将个体奖励和团队奖励分开考虑,提出了基于软双评估器梯度融合的多智能体强化学习方法。在该方法中,每个智能体使用两个评估器分别学习个体奖励和团队奖励,共同指导智能体策略的学习。在两个评估器之间,使用软目标迁移的方式,在前期使用个体奖励评估器指导策略关注于学习个体奖励,然后逐步用团队奖励引导策略转向团队目标的学习。同时使用投影冲突梯度的方法处理两个学习目标在学习过程中产生的梯度冲突。该方法能有效解决团队奖励稀疏难以学习的多智能体合作问题,并且在一般问题上也能利用个体奖励知识促进团队奖励目标的学习。

技术实现思路

[0005]专利技术目的:一种软双评估器梯度融合的多智能体强化学习方法,以解决团队奖励稀疏,难以从中学习有效策略的多智能体合作问题。
[0006]技术方案:一种软双评估器梯度融合的多智能体强化学习方法,包括如下步骤:步骤1、建立多智能体合作问题模型,设计问题中的个体奖励函数以及团队奖励函数,创建并初始化环境对象;步骤2、将环境中每个决策单位都视为一个智能体,并为每个智能体都初始化它的
神经网络;步骤3、算法控制所有的智能体与环境进行交互,并存储交互得到的序列数据;步骤4、利用存储的序列数据对所有智能体的神经网络进行训练;步骤5、智能体利用训练好的神经网络与环境进行交互,完成对问题的求解。
[0007]根据本专利技术的一个方面,所述步骤1中:待解决的多智能体合作问题需要有两个奖励函数:个体奖励函数和团队奖励函数。个体奖励函数从单个智能体的角度出发,为每个智能体提供了其执行某个动作后所能获得的个体奖励,鼓励智能体学习各自的技能;而团队奖励函数则从团队的角度出发,提供了表示多智能体合作问题目标的团队奖励,帮助智能体解决该合作问题。
[0008]根据本专利技术的一个方面,所述步骤2中:多智能体合作问题中存在着个需要控制的决策单位,将每个决策单位都视为一个智能体,并利用算法进行控制。选择一个Actor

Critic结构的多智能体强化学习算法作为本专利技术实现的基准算法,这些算法包括但不限于IPPO、MAPPO、MADDGP等;依据选择的基准算法,为每个智能体构建并初始化一个用于决策的Actor神经网络和两个用于评估的Critic神经网络。Actor神经网络用于对智能体的策略进行学习,帮助智能体选择动作进行决策;两个Critic神经网络分别代表了学习个体奖励和学习团队奖励的两个评估器,用于指导Actor神经网络的训练更新。同时依据选择的基准算法,为这些神经网络构建对应的目标网络,这些目标网络的参数通过复制对应的原本神经网络的参数来进行初始化。
[0009]根据本专利技术的一个方面,所述步骤3中,智能体按照如下步骤完成与环境的一次交互:步骤3

1、当前时刻,环境处于状态,每个智能体从环境中获得自己的局部观察,智能体的局部观察记为;步骤3

2、依据选择的基准算法,每个智能体利用自己的Actor神经网络选择采样时所执行的动作,并作用于环境,智能体的动作记为;步骤3

3、环境在接收到所有智能体的动作后,会依据其状态转移函数得到下一时刻的状态并进行转移;步骤3

4、环境依据其个体奖励函数为每个智能体提供个体奖励,智能体的个体奖励记为,同时环境依据其团队奖励函数为所有智能体反馈一个团队奖励;不断重复地进行步骤3

1到步骤3

4,直到环境到达终止状态或设定的每局最大步长,即完成一条序列数据的采样;重置环境对象后,即可进行新的序列数据的采样。依据选择的基准算法和设定的参数,总共进行次采样,得到条序列数据。
[0010]根据本专利技术的一个方面,所述步骤4中:依据所选的基准算法中对Critic神经网络的训练,利用采样得到的序列数据对每
个智能体的两个Critic神经网络进行训练;将基准算法中对Critic神经网络更新的损失函数记为,这个损失函数通过Critic神经网络的输出、Critic目标网络的输出以及序列数据中的奖励计算得到;将这个损失函数中的奖励分别使用采样得到的序列数据中的个体奖励和团队奖励进行替代,可以得到两个Critic神经网络训练时所使用的损失函数,分别记为和;基于这两个损失函数,利用优化器对两个Critic神经网络的参数进行更新;两个Critic目标网络参数则依据基准算法中Critic目标网络参数的更新方式分别进行更新;将所选的基准算法中对Actor神经网络训练时所使用的的损失函数记为,这个损失函数通过Actor神经网络的输出和Critic神经网络的输出计算得到;基于损失函数,利用评估累积个体奖励的Critic神经网络的输出计算可以得到Actor神经网络训练时所使用的个体奖励指导的损失函数,同样利用评估累积团队奖励的Critic神经网络的输出计算可以得到Actor神经网络训练时所使用的团队奖励指导的损失函数;引入参数用于实现对Actor神经网络更新时目标的软变换;具体的,利用参数先将个体奖励指导的损失函数缩放为,同时将团队奖励指导的损失函数缩放为;参数由人为设定从1开始随着训练过程的进行而逐步递减,从而实现了从个体奖励目标逐步向团队奖励目标的软目标迁移;然后利用缩放后的损失函数和分别对Actor神经网络进行梯度反向传播,分别得到两个Actor本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,包括如下步骤:步骤1、建立多智能体合作问题模型,设计问题中的个体奖励函数以及团队奖励函数,创建并初始化环境对象;步骤2、将环境中每个决策单位都视为一个智能体,并为每个智能体都初始化它的神经网络;步骤3、算法控制所有的智能体与环境进行交互,并存储交互得到的序列数据;步骤4、利用存储的序列数据对所有智能体的神经网络进行训练;步骤5、智能体利用训练好的神经网络与环境进行交互,完成对问题的求解。2.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤1中:待解决的多智能体合作问题需要有两个奖励函数:个体奖励函数和团队奖励函数,个体奖励函数从单个智能体的角度出发,为每个智能体提供了其执行某个动作后所能获得的个体奖励,鼓励智能体学习各自的技能;而团队奖励函数则从团队的角度出发,提供了表示多智能体合作问题目标的团队奖励,帮助智能体解决该合作问题。3.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤2中:多智能体合作问题中存在着个需要控制的决策单位,将每个决策单位都视为一个智能体,并利用算法进行控制;选择一个Actor

Critic结构的多智能体强化学习算法作为本发明实现的基准算法,这些算法包括但不限于IPPO、MAPPO、MADDGP等;依据选择的基准算法,为每个智能体构建并初始化一个用于决策的Actor神经网络和两个用于评估的Critic神经网络;Actor神经网络用于对智能体的策略进行学习,帮助智能体选择动作进行决策;两个Critic神经网络分别代表了学习个体奖励和学习团队奖励的两个评估器,用于指导Actor神经网络的训练更新;同时依据选择的基准算法,为这些神经网络构建对应的目标网络,这些目标网络的参数通过复制对应的原本神经网络的参数来进行初始化。4.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法,其特征在于,所述步骤3中,智能体按照如下步骤完成与环境的一次交互:步骤3

1、当前时刻,环境处于状态,每个智能体从环境中获得自己的局部观察,智能体的局部观察记为;步骤3

2、依据选择的基准算法,每个智能体利用自己的Actor神经网络选择采样时所执行的动作,并作用于环境,智能体的动作记为;步骤3

3、环境在接收到所有智能体的动作后,会依据其状态转移函数得到下一时刻的状态并进行转移;步骤3

4、环境依据其个体奖励函数为每个智能体提供个体奖励,智能体的个体奖励记为,同时环境依据其团队奖励函数为所有智能体反馈一个团队奖励;
不断重复地进行步骤3

1到步骤3

【专利技术属性】
技术研发人员:王丽胡裕靖高阳解宇陈广
申请(专利权)人:网易杭州网络有限公司江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1