当前位置: 首页 > 专利查询>江苏万维艾斯网络智能产业创新中心有限公司专利>正文

一种基于乐观投影的策略梯度多智能体强化学习方法技术

技术编号：38003880 阅读：9 留言：0更新日期：2023-06-30 10:18

本发明专利技术公开了一种基于乐观投影的策略梯度多智能体强化学习方法，属于人工智能领域。本方法包含如下步骤：1、构建智能体初始策略网络；2、构建基于值分解的值函数评估网络；3、基于乐观投影对局部效用函数进行训练更新；4、使用整体Q值对值函数评估网络进行更新；5、使用评估网络指导策略网络更新；6、模型输出决策结果。本方法提出一种基于乐观投影思想的策略梯度多智能体强化学习方法，使用值分解方法构造策略梯度算法中的评论家网络，乐观评估智能体的动作值，从而加强策略搜索的合理性，鼓励探索最优策略，接着根据更加准确的值函数估计指导智能体策略网络的更新，使得其更倾向于选择最优策略。最优策略。最优策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于乐观投影的策略梯度多智能体强化学习方法

[0001]本专利技术使用基于乐观投影的策略梯度多智能体强化学习方法，属于人工智能领域，是一种基于乐观投影通过改进值函数评估方法提高策略梯度强化学习的方法。

技术介绍

[0002]多智能体强化学习方法是在机器学习领域中具有重要意义，近年来被广泛研究和评估，并且在各个领域都表现出越来越大的能力，比如视频游戏、机器人控制、交通信号灯控制、金融市场决策、军事场景对抗等等。但是随着智能体数量上升，强化学习的状态空间呈指数级上升，如何提高多智能体的协作能力成为近年来热门的研究课题。特别是在一些复杂的多智能体协作任务中，智能体倾向于选择次优动作，导致最终难以搜索的全局最优策略。对于多智能体强化学习的研究主要分为两种：(1)基于值的多智能体强化学习方法；(2)基于策略的多智能体强化学习方法。
[0003]基于值的多智能体强化学习专注于学习评估值函数并改变智能体行为，而不是直接学习其策略。它是通过估计每个可能的状态的“价值”来选择特定状态下的最优动作、学习如何产生最大化期望奖励的算法。值分解多智能体强化学习算法是近年来表现最优的方法之一，它通过对每个智能体的效用函数的输出值作非线性变换将其组合到一起，同时约束其满足单调一致性，从而计算整体的动作值函数。例如QMIX、QPLEX等算法在许多任务中取得了最佳的表现。这类方法缓解了多智能体强化学习中的非稳态问题，具有可扩展性，并且在纯合作多智能体任务中表现出了强大的性能。
[0004]策略梯度多智能体强化学习方法能够处理连续型...

【技术保护点】

【技术特征摘要】
1.一种基于乐观投影的策略梯度多智能体强化学习方法，其特征在于，包括如下步骤：步骤1，根据强化学习演员
‑
评论家框架构建初始策略网络模块，采用多层感知机和循环神经网络，构建初始决策模型；步骤2，根据强化学习演员
‑
评论家框架构建初始值函数评估网络模块，根据值分解多智能体强化学习网络结构，采用多层感知机，构建初始值函数评估模型；步骤3，定义智能体局部效用函数为最优动作值函数；基于乐观投影思想以及弹性权重方法对局部效用函数q
i
(τ
i
,u
i
)进行更新，其中τ
i
为智能体i的轨迹，u
i
为智能体i的动作；步骤4，使用值分解损失函数以及联合动作值Q(τ,u)对值函数评估网络进行更新，其中τ为所有智能体的轨迹，u为智能体的联合动作；步骤5，使用值函数网络输出的联合动作值Q(τ,u)以及局部效用函数动作值q
i
(τ
i
,u
i
)指导策略网络更新；步骤6，使用步骤5中训练好的训练决策模型输出策略概率值；将策略概率处理后根据动作概率p选择动作。2.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法，其特征在于，所述步骤2中的演员
‑
评论家框架中的值函数评估网络由值分解网络结构构成，即每个智能体具有自己的局部效用函数q
i
(τ
i
,u
i
)，所输出的值通过Mix超网络生成权重进行加权求和，最终输出联合动作值Q(τ,u)。3.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法，其特征在于，所述步骤3中的基于演员
‑
评论家的值函数评估网络模块由具有实际意义的局部效用函数q
i
(τ
i
,u
i
)构成，其定义为：其中u
‑
i
为其他智能体的动作；通过该定义，使局部效用函数具有实际意义，并辅助决策模型的训练。4.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法，其特征在于，所述步骤3中的局部效用函数q
i
(τ
i
,u
i
)基于乐观投影思想进行更新，计算如下：)基于乐观投影思想进行更新，计算如下：其中，表示样本池中均方误差的期望值；γ为折扣系数；τ
i
′
，u

【专利技术属性】
技术研发人员：王健琦，陈佳瑞，胡裕静，高阳，解宇，
申请(专利权)人：江苏万维艾斯网络智能产业创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人