【技术实现步骤摘要】
一种元奖励分配的多智能体协同方法
[0001]本专利技术属于多智能体协同
,特别是一种元奖励分配的多智能体协同方法。
技术介绍
[0002]多智能体强化学习是强化学习领域的重要分支之一,由此衍生出一系列的多智能体强化学习算法,大致可分为以下三种类型:独立学习,协同学习以及通讯学习。
[0003]奖励分配一直是多智能体协同学习中的难点问题,如何将全局奖励准确分配给每一个智能体是调控多智能体有效学习的关键。以VDN,Q
‑
mix,Q
‑
tran为首的多智能体强化学习算法,通过将奖励分配问题转化为值函数分解问题间接调控多智能体协同策略,通过构建每一个个体值函数与全局值函数的函数关系来分配奖励,其中,VDN认为全局值函数为个体值函数之和;Q
‑
mix在此基础上进行改进采用神经网络对全局值函数与个体值函数关系进行拟合,拥有能更强的表达能力;Q
‑
tran则是在Q
‑
mix的基础上进一步改进,认为直接通过局部Q函数采用神经网络拟合联合 ...
【技术保护点】
【技术特征摘要】
1.一种元奖励分配的多智能体协同方法,其特征在于,包括:S1、采取transformer网络结构,初始化上层奖励权重分配网络参数以及下层值函数分解网络参数,同时初始化仿真环境;S2、将上层奖励权重分配网络和下层值函数分解网络部署至相应的仿真环境中,并执行所述下层值函数分解网络的前向网络与仿真交互推演,收集仿真轨迹样本;S3、构建经验回放池,将所述仿真轨迹样本存入所述经验回放池中,并对所述经验回放池进行维护;S4、从所述经验回放池中抽取预设批次的仿真轨迹样本作为训练集,输入至上层奖励权重分配网络和下层值函数分解网络;采用时间差分计算下层值函数网络的损失函数,并对所述下层值函数分解网络的参数进行更新,同时保存所述下层值函数分解网络参数更新梯度信息;S5、从所述经验回放池中抽取预设批次的仿真轨迹样本作为验证集,基于所述下层值函数分解网络参数更新梯度信息,通过元学习方法对所述上层奖励权重分配网络参数进行更新;S6、判断当前时刻下所述下层值函数分解网络是否收敛;若收敛,则获得Q价值与奖励分配权重,此时终止训练;若没有收敛,则返回步骤S2。2.如权利要求1所述的一种元奖励分配的多智能体协同方法,其特征在于,所述下层值函数分解网络包括联合Q函数网络和局部Q函数网络。3.如权利要求1所述的一种元奖励分配的多智能体协同方法,其特征在于,对所述经验回放池进行维护,具体包括:优先剔除所述经验回放池中存放时间最久的历史仿真轨迹样本;优化选择所述经验回放池中采样次数最少的历史仿真轨迹样本。4.如权利要求2所述的一种元奖励分配的多智能体协同方法,其特征在于,所述上层奖励权重分配网络和下层值函数分解网络通过公式描述为以下的双层优化问题:其中,表示建立在验证集上的上层奖励权重分配网络的损失函数;表示验证集批次样本;表示在当前奖励权重分配网络参数下最优的联合Q函数网络参数;表示在当前奖励权重分配网络参数下最优的局部Q函数网络参数;表示建立在训练集上的下层值函数分解网络的损失函数;表示最优的奖励权重分配网络参数;表示联合Q函数网络参数;表示局部Q函数网络参数。5.如权利要求2所述的一种元奖励分配的多智能体协同方法,其特征在于,所述下层值函数分解网络的参数更新过程如下:通过所述联合Q函数网络获得全局联合价值;通过所述上层奖励权重分配网络获得多智能体奖励分配权重系数向量;
基于所述全...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。