一种软双评估器梯度融合的多智能体强化学习方法技术

技术编号：34637025 阅读：23 留言：0更新日期：2022-08-24 15:11

本发明专利技术公开了一种软双评估器梯度融合的多智能体强化学习方法，属于人工智能领域。本发明专利技术提出一种利用个体奖励知识解决合作型多智能体强化学习中团队奖励稀疏的问题的新方法，在该方法中每个智能体使用两个评估器分别学习个体奖励和团队奖励，共同指导智能体策略的学习。在两个评估器之间，使用软目标迁移的方式，在前期使用个体奖励评估器指导策略关注于学习个体奖励，然后逐步用团队奖励引导策略转向团队目标的学习。该方法可以在不偏原始团队目标的情况下，通过从个体奖励的引导，有效解决团队奖励稀疏难以学习的多智能体合作问题，并且在一般问题上也能利用个体奖励知识促进团队奖励目标的学习。进团队奖励目标的学习。进团队奖励目标的学习。

全部详细技术资料下载

【技术实现步骤摘要】
一种软双评估器梯度融合的多智能体强化学习方法

[0001]本专利技术属于人工智能领域，特别是涉及合作型多智能体强化学习领域。

技术介绍

[0002]近年来，人工智能领域飞速发展，各界对于智能决策的需求不断涌现，希望智能体能够像人一样自主地从环境的反馈中试错学习，从而获得突破人类知识限制的决策能力。完全合作型多智能体任务由于和现实问题更加契合，获得了较多的关注。在合作型的多智能体任务中，多个智能体需要通过合作实现团队目标，最大化获得的累积团队奖励。但是，由于多智能体问题的复杂性，团队任务的目标往往很难学习，甚至由于团队奖励过于稀疏而使得现有算法无法从中学习到有效的合作策略。
[0003]目前在现实应用中，解决这一问题的一种常用方法，是根据领域先验知识设计一些辅助智能体学习合作任务的个体奖励。通过对个体奖励的学习，智能体能够学习一些有利于合作的行为或技能。通常有两种直接的方式来利用个体奖励：第一种方法是将所有智能体的个体奖励和团队奖励相加，并将其平均分配给各个智能体。第二种方法是每个智能体将自己的个体奖励和团队奖励相加，作为自己的总奖励。然而目前这种常用的简单的将两个奖励结合作为奖励信号的奖励塑形的方法，又面临着三个问题：（1）两个奖励信号的结合会改变原本学习的目标，导致学到的策略出现一些偏离我们想要目标的行为。（2）两个奖励信号的混合又涉及到混合权重的确定，而权重需要根据任务以及具体的奖励利用先验知识进行调整，实际应用中会导致陷入繁琐的调权重的工作中。（3）在合作型多智能体中任务中，奖励的混合又涉及到信度分配的...

【技术保护点】

【技术特征摘要】
1.一种软双评估器梯度融合的多智能体强化学习方法，其特征在于，包括如下步骤：步骤1、建立多智能体合作问题模型，设计问题中的个体奖励函数以及团队奖励函数，创建并初始化环境对象；步骤2、将环境中每个决策单位都视为一个智能体，并为每个智能体都初始化它的神经网络；步骤3、算法控制所有的智能体与环境进行交互，并存储交互得到的序列数据；步骤4、利用存储的序列数据对所有智能体的神经网络进行训练；步骤5、智能体利用训练好的神经网络与环境进行交互，完成对问题的求解。2.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法，其特征在于，所述步骤1中：待解决的多智能体合作问题需要有两个奖励函数：个体奖励函数和团队奖励函数，个体奖励函数从单个智能体的角度出发，为每个智能体提供了其执行某个动作后所能获得的个体奖励，鼓励智能体学习各自的技能；而团队奖励函数则从团队的角度出发，提供了表示多智能体合作问题目标的团队奖励，帮助智能体解决该合作问题。3.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法，其特征在于，所述步骤2中：多智能体合作问题中存在着个需要控制的决策单位，将每个决策单位都视为一个智能体，并利用算法进行控制；选择一个Actor
‑
Critic结构的多智能体强化学习算法作为本发明实现的基准算法，这些算法包括但不限于IPPO、MAPPO、MADDGP等；依据选择的基准算法，为每个智能体构建并初始化一个用于决策的Actor神经网络和两个用于评估的Critic神经网络；Actor神经网络用于对智能体的策略进行学习，帮助智能体选择动作进行决策；两个Critic神经网络分别代表了学习个体奖励和学习团队奖励的两个评估器，用于指导Actor神经网络的训练更新；同时依据选择的基准算法，为这些神经网络构建对应的目标网络，这些目标网络的参数通过复制对应的原本神经网络的参数来进行初始化。4.根据权利要求1所述的一种软双评估器梯度融合的多智能体强化学习方法，其特征在于，所述步骤3中，智能体按照如下步骤完成与环境的一次交互：步骤3
‑
1、当前时刻，环境处于状态，每个智能体从环境中获得自己的局部观察，智能体的局部观察记为；步骤3
‑
2、依据选择的基准算法，每个智能体利用自己的Actor神经网络选择采样时所执行的动作，并作用于环境，智能体的动作记为；步骤3
‑
3、环境在接收到所有智能体的动作后，会依据其状态转移函数得到下一时刻的状态并进行转移；步骤3
‑
4、环境依据其个体奖励函数为每个智能体提供个体奖励，智能体的个体奖励记为，同时环境依据其团队奖励函数为所有智能体反馈一个团队奖励；
不断重复地进行步骤3
‑
1到步骤3
‑

【专利技术属性】
技术研发人员：王丽，胡裕靖，高阳，解宇，陈广，
申请(专利权)人：网易杭州网络有限公司江苏万维艾斯网络智能产业创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人