一种多Agent深度强化学习算法制造技术

技术编号：31806132 阅读：15 留言：0更新日期：2022-01-08 11:08

本发明专利技术公开了一种多Agent深度强化学习算法，包括：S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果；S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道；S3：leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。本发明专利技术通过在分布式执行之前加入集中式预判分配权重，增强了智能体群体之间的决策通信，提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。鲁棒性。鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种多Agent深度强化学习算法

[0001]本专利技术涉及学习算法，具体涉及一种多Agent深度强化学习算法
‑‑
Leader_MADDPG。

技术介绍

[0002]多Agent深度强化学习是指在多个智能体环境中，使用深度强化学习的算法使得智能体之间可以像人一样进行协作交流，达到智能博弈的效果。与传统的强化学习的单个智能体在单个领域方面实施训练不同，多Agent强化学习可以实现大量自治或半自治的群体系统，并且可以拓展到多个领域的综合训练。
[0003]目前主流的MADDPG多Agent强化学习算法具有较强的收敛性、复杂环境适应性以及自我学习能力，虽然其在大部分多Agent环境中取得了预期的群体效果，但由于MADDPG在动作网络的输出动作过程中仅仅考虑到了自己所在的环境状态信息，并且只能通过全局评估网络的Q值更新才考虑到除自身以外其他智能体的部分反馈信息，这对于一个群体系统来说达到协作交流的效率就大打折扣了，并没有充分发挥群体博弈的最大优势，从而使得MADDPG在较为复杂的多Agent环境中收敛速度以及收敛的奖励幅度有着较大的提升空间。

技术实现思路

[0004]本专利技术的主要目的在于提供一种多Agent深度强化学习算法。
[0005]本专利技术采用的技术方案是：一种多Agent深度强化学习算法，包括：S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果；S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道；S3：leader层网络只...

【技术保护点】

【技术特征摘要】
1.一种多Agent深度强化学习算法，其特征在于，包括：S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果；S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道；S3：leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。2.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式（1）所示：
ꢀꢀꢀꢀ
(1)其中是一个集中的动作值函数，它将所有智能体的动作加上一些状态信息x作为输入，然后输出智能体i的Q值；智能体可以有任意的奖励方式，包括在竞争环境中相互冲突的奖励。3.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：多Agent集中式leader层的期望收益的梯度更新方式如式（2）所示：
ꢀꢀꢀꢀ
(2)其中是leader网络的参数集合，为所有智能体策略的集合。4.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：对于评估网络更新，经验回放缓冲区D包含元组，记录了所有智能体的经验，集中的...

【专利技术属性】
技术研发人员：王旭，张宇，郭秀娟，徐勇，尤天舒，富倩，孙伟，刘钢，戴传祗，吴程巍，
申请(专利权)人：吉林建筑大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人