一种基于参数稀疏共享的异构多智能体强化学习方法技术

技术编号:39778214 阅读:28 留言:0更新日期:2023-12-22 02:24
本发明专利技术涉及多智能体协同技术,具体涉及一种基于参数稀疏共享的异构多智能体强化学习方法

【技术实现步骤摘要】
一种基于参数稀疏共享的异构多智能体强化学习方法


[0001]本专利技术涉及多智能体协同技术,具体涉及一种基于参数稀疏共享的异构多智能体强化学习方法


技术介绍

[0002]在多智能体系统中,传统的异构智能体通常共用一个智能体模型,通过共享同一组模型参数来实现

这种方式可以有效地减少模型参数量,从而降低模型训练的复杂度和时间成本

但当智能体之间的相关性较弱时,不同类型智能体之间的训练会相互影响,降低模型性能,可能导致负迁移现象


技术实现思路

[0003]本专利技术的目的在于:针对上述现有技术中存在的问题,提供一种基于稀疏共享的异构多智能体强化学习方法,通过引入稀疏共享机制,有效地降低传统智能体模型参数共享导致的负迁移现象,提高智能体决策的正确性

[0004]为实现上述目的,本专利技术采用以下技术方案:
[0005]一种基于稀疏共享的异构多智能体强化学习方法,包括:
[0006]步骤一

训练多智能体模型
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于稀疏共享的异构多智能体强化学习方法,包括:步骤一

训练多智能体模型
S1、
初始化一个过参数化的网络,以作为所有智能体的共享网络;
S2、
统一各类型智能体观察向量维度,基于统一维度后的观察向量维度,采用端到端训练方式训练共享网络,得到最优共享网络参数;
S3、
将最优共享网络参数作为基础网络参数,根据基础网络参数生成各智能体的子网络;单独训练每种类型智能体子网络,得到各智能输出
Q
值最大的动作,用于组合成联合动作;步骤二

利用训练后的多智能体模型进行决策,以提高智能体决策的准确性
。2.
如权利要求1所述的一种基于稀疏共享的异构多智能体强化学习方法,其特征在于:所述
S1
过参数化的网络由依次连接的
28x64
全连接层
、64x64 GRU
层和
64x16
全连接层组成
。3.
如权利要求1所述的一种基于稀疏共享的异构多智能体强化学习方法,其特征在于:所述
S2
的详细操作步骤为:
S2.1、
统一各类型智能体观察向量维度;
S2.2、
将各智能体统一维度后的观察向量输入至共享网络,计算各智能体每个动作对应的
Q
值,选择各智能体最大
Q
值对应动作;
S2.3、
将各智能体最大
Q
值对应动作组合在一起,得到联合动作;根据动作合集计算出团队
Q
值;
S2.4、
系统根据团队
Q
值构建训练损失函数,基于训练损失函数反向更新共享网络参数;训练损失函数计算公式如下:其中
b
是重放缓冲区采样的大小;
o
为智能体联合观察,联合观察为所有智能体局部观察的合集
o

(o1,o2...o
n
)
,其中
o
i
是智能体
i
的局部观察;
u
为智能体联合动作,联合动作为所有智能体动作的合集
u

(u1,u2...u
n
)
,其中
u
i
是智能体
i
的动作;
s
为绝对全局状态,由强化学习的模拟环境系统提供,包含所有智能体的状态信息以及环境信息;
θ
为估计网络的参数,
y
tot
是目标网络的输出;
y
tot
的计算方式如下:
y
tot

r+
γ
max
u

Q
tot
(o

,u

,s


θ

)
其中
γ
是折扣因子,设置为
0.99

r
为团队奖励,
o

为下一步的联合观察,
u

为下一步的联合动作,
s

为下一个全局状态,<...

【专利技术属性】
技术研发人员:赵太银许毅罗光春王勇李徐成孙宇栋
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1