一种基于值分布的多智能体强化学习方法及系统技术方案

技术编号：31377929 阅读：9 留言：0更新日期：2021-12-15 11:18

本发明专利技术公开了一种基于值分布的多智能体强化学习方法及系统，能够在训练过程中能够很好地捕获长期回报中存在的随机性，精准地预测真实的价值函数分布，解决了由于环境随机性过大而训练不平稳的问题，使得策略收敛更快，模型性能得到有效提升。此外，根据定义的离散分布的变换操作，该方法可以与所有基于集中式训练分散式执行范式的方法相结合。练分散式执行范式的方法相结合。练分散式执行范式的方法相结合。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于值分布的多智能体强化学习方法及系统

[0001]本专利技术涉及多智能体强化学习
，尤其涉及一种基于值分布的多智能体强化学习方法及系统。

技术介绍

[0002]强化学习已被广泛应用于各种合作多智能体问题，例如多人游戏、传感器网络和交通灯控制等，这些复杂的现实问题都可以被建模为一个合作多智能体系统。在合作多智能体系统中，由于智能体的部分可观和智能体间通信限制，每个智能体只能以分散的方式与环境交互。在交互过程中，智能体的部分可观、智能体策略的变化、奖励函数和状态转换函数都会给长期回报带来随机性。此外，这种随机性会随着智能体数量的增加而加剧。
[0003]近年来，基于值分布的强化学习在单智能体领域中取得了很大的成就，不同于传统强化学习中只预测价值函数的均值，它通过利用离散分布或分位数函数来估计价值函数的随机分布。估计值分布尽管可以建模长期回报中的随机性，但很难直接应用于基于集中式训练分散式执行范式的多智能体强化学习。
[0004]现有主流的多智能体强化学习训练范式为集中式训练分散式执行，使智能体既能在训练过程中利用全局信息来协调合作，又能在执行时只利用部分观测信息。当前许多基于价值函数的多智能体强化学习技术都采用了该范式，它们通过团队奖励引导联合价值函数的学习，并将联合价值函数分解为智能体个人的价值函数，从而使每个智能体集中化学习策略，然后只依赖于个人的价值函数来执行。但是，依然存在如下技术问题：
[0005]1)现实的多智能体问题中的环境和奖励通常存在随机性，导致了长期回报的随机性，而...

【技术保护点】

【技术特征摘要】
1.一种基于值分布的多智能体强化学习方法，其特征在于，包括：应用场景中每一智能体值分布函数网络根据观测到的场景数据，输出个人价值函数的分布，将个人价值函数的分布建模为离散分布；基于多种离散分布的变换操作设计分布混合网络，分布混合网络的每一层对个人价值函数对应的离散分布进行变换操作，最终将多个个人价值函数的离散分布合并为一个联合价值函数的离散分布；使用团队奖励来引导联合价值函数离散分布的学习，同时通过分布混合网络来反向引导各智能体值分布函数网络的学习；学习完毕后，应用场景中每一智能体值分布函数网络根据观测到的场景数据，输出个人价值函数的分布，再根据个人价值函数的分布的均值来选取最优动作。2.根据权利要求1所述的一种基于值分布的多智能体强化学习方法，其特征在于，所述应用场景包括：自动驾驶汽车场景；所述自动驾驶汽车场景中，每一辆汽车作为一个智能体，各自构建了一个值分布函数网络；所述场景数据包括：速度信息、位置信息、以及与周围车辆及行人的距离。3.根据权利要求1所述的一种基于值分布的多智能体强化学习方法，其特征在于，所述应用场景包括：计算机游戏场景；所述计算机游戏场景，每一个游戏单元作为一个智能体，每一个游戏单元单独控制游戏中己方一个游戏单位，对每一个智能体各自构建一个值分布函数网络；所述场景数据包括：游戏场景中己方游戏单位的位置、血量，以及视野范围内的己方游戏单位、敌方单位的位置和血量。4.根据权利要求1所述的一种基于值分布的多智能体强化学习方法，其特征在于，所述离散分布用一组离散值和每个离散值对应的概率表示，一组离散值称为离散分布的基。5.根据权利要求4所述的一种基于值分布的多智能体强化学习方法，其特征在于，所述多种离散分布的变换操作包括：加权操作、偏置操作、卷积操作、投影操作和函数变换操作；其中：加权操作是将一个离散分布的基乘以一个权重，对离散分布的基进行放缩；偏置操作是将一个离散分布的基加上一个常数，对离散分布的基进行平移；卷积操作是对两个离散分布进行求和；投影操作是让两个离散分布的基保持一致；函数变换操作是对一个离散分布的基进行非线性变换。6.根据权利要求5所述的一种基于值分布的多智能体强化学习方法，其特征在于，所述分布混合网络为多层的神经网络，从第一层至于倒数第二层中，...

【专利技术属性】
技术研发人员：李厚强，周文罡，赵鉴，阳明宇，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人