一种基于分层技能发现的多智能体强化学习系统技术方案

技术编号:39658367 阅读:15 留言:0更新日期:2023-12-09 11:27
本发明专利技术涉及多智能体强化学习技术领域,公开了一种基于分层技能发现的多智能体强化学习系统,包括:技能分配模块,采用

【技术实现步骤摘要】
一种基于分层技能发现的多智能体强化学习系统


[0001]本专利技术涉及多智能体强化学习
,具体涉及一种基于分层技能发现的多智能体强化学习系统


技术介绍

[0002]1)
多智能体强化学习
[0003]多智能体强化学习
(Multi

Agent Reinforcement Learning)
是一种涉及多个智能体在复杂环境中相互交互学习的方法

在传统强化学习中,通常只有一个智能体与环境交互,而在多智能体强化学习中,有多个智能体同时在环境中执行任务,并且它们的决策和行为会相互影响

[0004]多智能体强化学习旨在通过多个智能体与环境不断交互,获取各自状态信息并做出相应的决策动作,然后环境给出奖励,周而复始直到环境给出结束信号;多智能体系统通过将累积回报奖励最大化作为优化目标,从而学习获得最优策略

[0005]近年来,多智能体强化学习在解决各种现实问题方面表现出了巨大的潜力,例如无人机群控制

自动驾驶和交通灯控制

国内外多智能体强化学习研究的主流算法分为基于值函数的多智能体强化学习算法和基于策略梯度的多智能体强化学习算法

基于值函数
(value

based)
的多智能体强化学习算法通过学习最优全局动作价值函数,再通过贪心选择动作来间接得到策略;基于策略梯度
(policy

>based)
的多智能体强化学习算法的基本思想是直接学习最优策略函数

[0006]2)
技能发现
[0007]技能发现
(Skill Discovery)
是指在复杂任务中,从智能体的行为数据中自动识别和提取可重复使用的基本行为模式或策略的过程

在传统的多智能体强化学习中,智能体通常需要通过试错的方式来学习如何与环境交互以获得奖励,这样的学习过程往往非常耗时且低效

技能发现的目标是将底层的原始动作抽象成高层次的

具有一定语义的技能

通过技能的发现,智能体可以更加高效地学习和执行任务

[0008]技能发现的过程可以基于多种方法

一种常见的方法是聚类分析,将智能体在环境中的行为数据聚类为不同的技能

另一种方法是时序模型,通过建立智能体行为的时间模型,发现重复出现的行为序列

此外,还可以利用深度学习技术,如最大化环境状态和技能的互信息,来学习环境中的表示并发现技能

[0009]技能发现的优势在于可以将复杂任务分解为更简单的子任务,从而加速学习过程

智能体学习到的高层次技能可以作为一种组合或规划的方式,使其在复杂环境中更快速

高效地实现目标

此外,技能发现也有助于对智能体的行为进行解释和可视化,增强对智能体决策的理解

[0010]现有技术缺点一:现有的多智能体强化学习算法通常需要精心设计的团队或个人奖励来指导多个智能体学习有效且相互协调的策略,而现实中许多多智能体任务的奖励是非常稀疏的,即智能体们只有在合作实现具有挑战性的目标时才会收到非零奖励,这将导
致现有的多智能体强化学习算法难以解决稀疏奖励场景下的多智能体任务

[0011]现有技术缺点二:现有的多智能体强化学习算法主要遵循两种范式来发现多智能体任务中的技能

一种是让所有智能体去发现一个共享的团队技能,尽管这样能促进团队合作,但由于多智能体强化学习的联合状态动作空间随智能体数量增加呈指数增长,直接学习团队技能会导致过高的训练复杂度

另一种是让每一个智能体去发现个人技能,这样虽然大幅减小了训练复杂度,但仅学习个人技能可能还不足以完成团队目标

[0012]上面两个缺点就是现在的多智能体强化学习方法的主要问题

本专利技术提出一种多智能体技能发现新范式,同时去发现多智能体任务中的团队技能和个人技能,改进现有技术的缺点


技术实现思路

[0013]为解决上述技术问题,本专利技术提供一种基于分层技能发现的多智能体强化学习系统

[0014]为解决上述技术问题,本专利技术采用如下技术方案:
[0015]一种基于分层技能发现的多智能体强化学习系统,包括:
[0016]技能分配模块,采用
Transformer
结构为智能体分配技能;所述
Transformer
结构包括状态编码器和技能解码器;技能分配模块的输入为全局状态和所有智能体的观测结果组成的序列,输出为团队技能和所有智能体的个人技能组成的序列,使一个智能体的个人技能取决于团队技能和之前所有智能体的个人技能;
[0017]技能发现模块,为每个智能体选择原始动作,以根据分配的技能与环境进行交互;
[0018]技能鉴别模块,负责产生内在奖励来让智能体学习多种可区分的技能,包括团队鉴别器和个人鉴别器;团队鉴别器的输入为全局状态,输出为团队技能的概率分布;个人鉴别器输入为每个智能体的局部观测和团队技能,输出为个人技能的概率分布

[0019]进一步地,所述技能发现模块包括演员和评论家;演员的输入为每个智能体的局部观测和分配的个人技能,输出为智能体的动作,目标为让每个智能体能够发现个人技能;评论家的输入为全局状态和分配的团队技能,输出全局价值,指导所有智能体的联合行为

[0020]与现有技术相比,本专利技术的有益技术效果是:
[0021]很多情况下,多智能体决策问题的奖励回报是非常稀疏的,但现有的多智能体强化学习算法难以解决奖励回报稀疏的问题

基于此,本专利技术提出一种基于分层技能发现的多智能体强化学习系统,通过训练智能体同时去发现团队技能和个人技能,智能体能够更好地理解和利用彼此的行为模式,从而实现更强大的合作和竞争能力,同时减少学习时间和资源消耗,使得多智能体系统能够在稀疏奖励环境中快速学习和实现高效决策

附图说明
[0022]图1为本专利技术提出的基于分层技能发现的多智能体强化学习系统框架图

具体实施方式
[0023]下面结合附图对本专利技术的一种优选实施方式作详细的说明

[0024]本专利技术的目的是设计一种新的多智能体强化学习系统,来解决稀疏奖励下的多智
能体任务

[0025]本专利技术的思想是:针对现有的多智能体强化学习算法难以解决稀疏奖励任务的问题,本专利技术将技能发现与多智能体强化学习相结合,提供一种创新的系统和方法,训练多智能体同时去发现团队技能和个人技能,个人技能是每个智能体个人的技术能力本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于分层技能发现的多智能体强化学习系统,其特征在于,包括:技能分配模块,采用
Transformer
结构为智能体分配技能;所述
Transformer
结构包括状态编码器和技能解码器;技能分配模块的输入为全局状态和所有智能体的观测结果组成的序列,输出为团队技能和所有智能体的个人技能组成的序列,使一个智能体的个人技能取决于团队技能和之前所有智能体的个人技能;技能发现模块,为每个智能体选择原始动作,以根据分配的技能与环境进行交互;技能鉴别模块,负责产生内在奖励来让...

【专利技术属性】
技术研发人员:李厚强周文罡阳明宇
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1