【技术实现步骤摘要】
一种基于乐观投影的策略梯度多智能体强化学习方法
[0001]本专利技术使用基于乐观投影的策略梯度多智能体强化学习方法,属于人工智能领域,是一种基于乐观投影通过改进值函数评估方法提高策略梯度强化学习的方法。
技术介绍
[0002]多智能体强化学习方法是在机器学习领域中具有重要意义,近年来被广泛研究和评估,并且在各个领域都表现出越来越大的能力,比如视频游戏、机器人控制、交通信号灯控制、金融市场决策、军事场景对抗等等。但是随着智能体数量上升,强化学习的状态空间呈指数级上升,如何提高多智能体的协作能力成为近年来热门的研究课题。特别是在一些复杂的多智能体协作任务中,智能体倾向于选择次优动作,导致最终难以搜索的全局最优策略。对于多智能体强化学习的研究主要分为两种:(1)基于值的多智能体强化学习方法;(2)基于策略的多智能体强化学习方法。
[0003]基于值的多智能体强化学习专注于学习评估值函数并改变智能体行为,而不是直接学习其策略。它是通过估计每个可能的状态的“价值”来选择特定状态下的最优动作、学习如何产生最大化期望奖励的算法。值分解多智能体强化学习算法是近年来表现最优的方法之一,它通过对每个智能体的效用函数的输出值作非线性变换将其组合到一起,同时约束其满足单调一致性,从而计算整体的动作值函数。例如QMIX、QPLEX等算法在许多任务中取得了最佳的表现。这类方法缓解了多智能体强化学习中的非稳态问题,具有可扩展性,并且在纯合作多智能体任务中表现出了强大的性能。
[0004]策略梯度多智能体强化学习方法能够处理连续型 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,包括如下步骤:步骤1,根据强化学习演员
‑
评论家框架构建初始策略网络模块,采用多层感知机和循环神经网络,构建初始决策模型;步骤2,根据强化学习演员
‑
评论家框架构建初始值函数评估网络模块,根据值分解多智能体强化学习网络结构,采用多层感知机,构建初始值函数评估模型;步骤3,定义智能体局部效用函数为最优动作值函数;基于乐观投影思想以及弹性权重方法对局部效用函数q
i
(τ
i
,u
i
)进行更新,其中τ
i
为智能体i的轨迹,u
i
为智能体i的动作;步骤4,使用值分解损失函数以及联合动作值Q(τ,u)对值函数评估网络进行更新,其中τ为所有智能体的轨迹,u为智能体的联合动作;步骤5,使用值函数网络输出的联合动作值Q(τ,u)以及局部效用函数动作值q
i
(τ
i
,u
i
)指导策略网络更新;步骤6,使用步骤5中训练好的训练决策模型输出策略概率值;将策略概率处理后根据动作概率p选择动作。2.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤2中的演员
‑
评论家框架中的值函数评估网络由值分解网络结构构成,即每个智能体具有自己的局部效用函数q
i
(τ
i
,u
i
),所输出的值通过Mix超网络生成权重进行加权求和,最终输出联合动作值Q(τ,u)。3.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤3中的基于演员
‑
评论家的值函数评估网络模块由具有实际意义的局部效用函数q
i
(τ
i
,u
i
)构成,其定义为:其中u
‑
i
为其他智能体的动作;通过该定义,使局部效用函数具有实际意义,并辅助决策模型的训练。4.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤3中的局部效用函数q
i
(τ
i
,u
i
)基于乐观投影思想进行更新,计算如下:)基于乐观投影思想进行更新,计算如下:其中,表示样本池中均方误差的期望值;γ为折扣系数;τ
i
′
,u
技术研发人员:王健琦,陈佳瑞,胡裕静,高阳,解宇,
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。