一种多智能体协同决策强化学习方法技术

技术编号:39645622 阅读:7 留言:0更新日期:2023-12-09 11:13
本申请公开了一种多智能体协同决策强化学习方法

【技术实现步骤摘要】
一种多智能体协同决策强化学习方法、系统及装置


[0001]本申请涉及多智能体协作与竞争
,尤其涉及一种多智能体协同决策强化学习方法

系统及装置


技术介绍

[0002]多智能体系统
(multi

agent system)
包含多个智能体,每个智能体根据它在环境中观测到的信息做出决策并改变环境与其他智能体所处的状态

这些智能体能够充分考虑当前环境的观测信息以及各智能体之间的联系,使不同智能体产生的动作能够互相配合

[0003]多智能体的强化学习在现实中有着非常重要的应用场景,例如,游戏领域中的智能
NPC。
而多智能体的协同决策能力是发挥多智能体优势的关键,也是整个多智能体系统智能性的体现
,
它们不断的通过通信交互,分别控制一个环境中的不同单位

[0004]但是,由于目前的多智能体系统通信通道受限,而智能体之间无差别的交互和相互影响,多智能体强化学习过程需要很庞大的算力支持,智能体学习协同决策难度较大


技术实现思路

[0005]本申请提供了一种多智能体协同决策强化学习方法

系统及装置,用于在通信通道受限的多智能体系统中缓解智能体学习协同决策难度

[0006]本申请第一方面提供了一种多智能体协同决策强化学习方法,包括:
[0007]构建协同学习框架模型,所述协同学习框架模型包括顶层策略编码器

交流门控及顶层策略选择器;
[0008]获取多智能体系统的全局环境状态,并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息;
[0009]将所述局部观测信息输入所述顶层策略编码器得到局部特征编码,将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值;
[0010]若所述交流意图值达到预设阈值,则通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信,并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略,以使得根据所述顶层策略区分所述目标智能体与所述邻域智能体之间的角色关系,实现多智能体的分工合作;
[0011]根据所述顶层策略,在其对应的子动作空间确定所述目标智能体的目标动作,所述子动作空间通过预训练的动作语义表征编码模型得到;
[0012]在确定所述顶层策略和所述目标动作后,控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度,根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新后,再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至所述损失函数收敛,得到训练完成的协同学习模型;
[0013]训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作
与环境交互

[0014]可选地,所述将所述局部观测信息输入所述顶层策略编码器得到局部特征编码,将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值包括:
[0015]将所述目标智能体的局部观测信息和循环网络记忆单元
(Gate Recurrent Unit

GRU)
保存的所述目标智能体的隐藏状态同时输入所述顶层策略编码器中进行编码,输出局部特征编码,所述顶层策略编码器包括所述
GRU
和线性层网络单元;
[0016]将所述局部特征编码输入所述交流门控中得到交流权重,根据所述交流权重确定交流意图值

[0017]可选地,所述通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信,并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略包括:
[0018]在所述协同学习框架模型中设置基于图网络的自注意力交流通信模块,所述自注意力交流通信模块包括多轮通信器;
[0019]利用所述多轮通信器生成所述目标智能体的第一消息,并通过所述多轮通信器的通信通道向邻域智能体发送所述第一消息,所述多轮通信器用于发送和接收智能体生成的消息,所述邻域智能体为基于所述图网络的自注意力交流通信模块确定的与所述目标智能体同在目标观测范围内的所述目标智能体的同盟邻域智能体;
[0020]基于所述第一消息利用所述顶层策略选择器计算所述目标智能体的角色
Q
值;
[0021]从所述角色
Q
值中选择
Q
值最大的作为所述目标智能体的顶层策略,以使得根据所述顶层策略对所述目标智能体进行动作调整

[0022]可选地,所述协同学习框架模型还包括底层策略网络;
[0023]所述在确定所述顶层策略和所述目标动作后,控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度,根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新包括:在确定所述顶层策略和所述目标动作后,基于底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈,确定所述多智能体系统的全局
Q
值;基于所述奖励反馈和所述全局
Q
值计算顶层策略损失函数,并计算所述底层策略网络的底层策略损失函数;
[0024]根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值,并计算梯度;
[0025]基于所述总损失值和所述梯度,利用反向梯度传播算法对所述协同学习框架模型的模型参数进行更新优化

[0026]可选地,在所述根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值之后,所述方法还包括:
[0027]对于所述目标智能体和所述邻域智能体,通过目标公式计算独立角色值函数和协作角色值函数的平均差值,根据所述平均差值确定目标
Q
值,将所述目标
Q
值存储到目标队列中;
[0028]对所述目标
Q
值做最小

最大归一化处理,使其值范围在0~1之间;
[0029]根据归一化处理后的目标
Q
值计算所述交流门控的门控损失函数,并根据所述门控损失函数对所述交流门控中的网络参数进行优化更新

[0030]可选地,在所述根据所述顶层策略,在其对应的子动作空间确定所述目标智能体的目标动作之前,所述方法还包括:
[0031]构建动作语义表征编码初始模型,并训练所述动作语义表征编码初始模型得到动作语义表征编码模型,所述动作语义表征编码模型用于确定智能体的子动作空间

[0032]可选地,所述训练所述动作语义表征编码初始模型得到动作语义表征编码模型包括:
[0033]所述动作语义表征编码初始模型包括动作编码器

观测预测器和奖励预测器;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多智能体协同决策强化学习方法,其特征在于,所述方法包括:构建协同学习框架模型,所述协同学习框架模型包括顶层策略编码器

交流门控及顶层策略选择器;获取多智能体系统的全局环境状态,并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息;将所述局部观测信息输入所述顶层策略编码器得到局部特征编码,将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值;若所述交流意图值达到预设阈值,则通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信,并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略,以使得根据所述顶层策略区分所述目标智能体与所述邻域智能体之间的角色关系,实现多智能体的分工合作;根据所述顶层策略,在其对应的子动作空间确定所述目标智能体的目标动作,所述子动作空间通过预训练的动作语义表征编码模型得到;在确定所述顶层策略和所述目标动作后,控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度,根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新后,再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至所述损失函数收敛,得到训练完成的协同学习模型;训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作与环境交互
。2.
根据权利要求1所述的多智能体协同决策强化学习方法,其特征在于,所述将所述局部观测信息输入所述顶层策略编码器得到局部特征编码,将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值包括:将所述目标智能体的局部观测信息和循环网络记忆单元
GRU
保存的所述目标智能体的隐藏状态同时输入所述顶层策略编码器中进行编码,输出局部特征编码,所述顶层策略编码器包括所述
GRU
和线性层网络单元;将所述局部特征编码输入所述交流门控中得到交流权重,根据所述交流权重确定交流意图值
。3.
根据权利要求1所述的多智能体协同决策强化学习方法,其特征在于,所述通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信,并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略包括:在所述协同学习框架模型中设置基于图网络的自注意力交流通信模块,所述自注意力交流通信模块包括多轮通信器;利用所述多轮通信器生成所述目标智能体的第一消息,并通过所述多轮通信器的通信通道向邻域智能体发送所述第一消息,所述多轮通信器用于发送和接收智能体生成的消息,所述邻域智能体为基于所述图网络的自注意力交流通信模块确定的与所述目标智能体同在目标观测范围内的所述目标智能体的同盟邻域智能体;基于所述第一消息利用所述顶层策略选择器计算所述目标智能体的角色
Q
值;从所述角色
Q
值中选择
Q
值最大的作为所述目标智能体的顶层策略,以使得根据所述顶层策略对所述目标智能体进行动作调整

4.
根据权利要求3所述的多智能体协同决策强化学习方法,其特征在于,所述协同学习框架模型还包括底层策略网络;所述在确定所述顶层策略和所述目标动作后,控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度,根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新包括:在确定所述顶层策略和所述目标动作后,基于所述底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈,确定所述多智能体系统的全局
Q
值;基于所述奖励反馈和所述全局
Q
值计算顶层策略损失函数及所述底层策略网络的底层策略损失函数;根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值,并计算梯度;基于所述总损失值和所述梯度,利用反向梯度传播算法对所述协同学习框架模型的模型参数进行更新优化
。5.
根据权利要求4所述的多智能体协同决策强化学习方法,其特征在于,在所述根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值之后,所述方法还包括:对于所述目标智能体和所述邻域智能体,通过目标公式计算独立角色值函数和协作角色值函数的平均差值,根据所述平均差值确定目...

【专利技术属性】
技术研发人员:陈嘉义茹吉项轼辙罗家胜曹涛张灿阳张旭胡影超魏冉褚坤王斌刘哲祺
申请(专利权)人:北京蓝色创想网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1