一种基于旋转对称性的多智能体强化学习数据增强方法技术

技术编号:36794473 阅读:17 留言:0更新日期:2023-03-08 22:56
本发明专利技术提供了一种基于旋转对称性的多智能体强化学习数据增强方法,解决多智能体强化学习样本效率低的问题。本发明专利技术方法研究指出多智能体系统的全局对称性,基于该性质,对获取的状态、动作、奖励以及下一时刻状态进行旋转对称性变换,生成增强样本;将原始样本和旋转对称性变换后的增强样本同时存入经验缓存池中,从经验缓存池中随机采集样本,用于智能体策略网络的训练。本发明专利技术方法即插即用,使用旋转变换对智能体和环境交互所产生的样本进行数据增强,无需与环境进行交互即可产生数据样本,且可指定任意角度对数据进行旋转,使得产生的样本数据更加多样性,可以嵌入到任何多智能体强化学习算法中,提高了多智能体强化学习算法的样本效率。算法的样本效率。算法的样本效率。

【技术实现步骤摘要】
一种基于旋转对称性的多智能体强化学习数据增强方法


[0001]本专利技术属于多智能体强化学习
,涉及一种基于旋转对称性的多智能体强化学习数据增强方法。

技术介绍

[0002]各种现代人工智能挑战可以被表述为多智能体强化学习(Multiagent reinforcement learning,MARL)问题。随着MARL的发展,在多个任务场景中取得了许多成就,例如多人游戏、交通控制和多机器人等。然而,大多数强化学习(Reinforcement learning,RL)方法需要使用大量数据训练智能体。在仿真模拟中,由于渲染速度的限制,数据效率对于实现快速实验迭代十分重要。虽然并行和加速的仿真环境使代理能够在合理的时间内解决复杂的任务,但在真实环境中的智能体训练受到物理条件的限制。因此,提高现有MARL方法的样本效率对于理论研究和实践都至关重要。
[0003]提高MARL样本效率是指减少环境交互的数量,以便更好地学习智能体的行为策略。目前已有一些文献提出了许多方法来解决深度强化学习中数据效率低下的问题。这些方法可以大致分为两类:基于数据增强的方法和基于网络结构设计的方法。具体来说,数据增强在最近的研究中被广泛用于在单智能体RL中生成更多数据样本,但大多数提出的解决方案都集中在基于图像的数据增强。一种名为RAD的数据增强的强化学习技术对所观察到的图像数据进行裁剪,翻转等操作,使单代理RL的数据效率提高。基于旋转变换对数据进行增强是计算机视觉领域常见的方法,但这些方法不能直接应用于MARL中。在计算机视觉中场景中,对图像的旋转变换不会影响图像的类别标签,故可直接应用旋转变换增强样本。但在多智能体强化学习中,智能体在每个时刻根据当前状态依据神经网络策略执行动作,智能体之间存在复杂的交互关系,无法简单使用计算机视觉中的数据增强方法。目前在多智能体强化学习这一领域,尚未有人定义多智能体系统的对称性,同时没有人提出相应的数据增强算法。另一种基于网络结构设计的方法通常旨在设计专门的网络架构,隐含地嵌入与给定任务相关的先验知识。多智能体同态网络将多智能体系统的全局对称性集成到神经网络模型中,从而提高数据效率。尽管它们具有显着的效果,但这些方法需要精心设计网络结构。此外,由于潜在的不变性很难隐式编码到神经网络架构中,因此这类方法通用性差且难以扩展到更复杂的任务中。

技术实现思路

[0004]为了克服现有技术的缺陷,解决多智能体强化学习样本效率低的问题,本专利技术提供了一种基于旋转对称性的多智能体强化学习数据增强方法,利用多智能体系统的全局对称性,通过构造旋转变换,对智能体与环境交互所产生的数据进行数据增强,使多智能体强化学习算法在训练的过程中能够以更少的环境交互次数获取到同样的性能,有效促进了多智能体强化学习算法的训练。
[0005]本专利技术的一种基于旋转对称性的多智能体强化学习数据增强方法,包括以下步
骤:
[0006]步骤1:初始化多智能体的策略网络参数和动作价值网络参数,设置旋转角度β;
[0007]步骤2:获取各智能体在环境中的当前状态s,并利用各智能体的当前策略网络得到智能体的动作向量a,各智能体执行各自的动作向量后,获取执行动作后的奖励r以及执行动作后的智能体状态s',获得原始样本(s,a,r,s');
[0008]步骤3:根据多智能体系统的全局对称性,对步骤2中获取到的状态、动作、奖励以及下一时刻状态进行旋转对称性变换,由原始样本(s,a,r,s')生成增强样本;
[0009]设置矩阵分别将s、a、s'与矩阵T相乘得到旋转β后的向量,即执行旋转角度β后的智能体状态L[s]、智能体动作向量K
s
[a]、下一时刻状态L[s'],其中样本旋转变换后的奖励r和原奖励相同,得到增强样本(L[s],K
s
[a],r,L[s']);
[0010]步骤4:将原始样本和旋转对称性变换后的增强样本同时存入经验缓存池中,从经验缓存池中随机采集样本;
[0011]步骤5:使用策略网络的损失函数以及动作价值网络的损失函数对策略网络和动作价值函数进行更新,完成强化学习的训练;
[0012]步骤6:在决策阶段,各个智能体根据本地观测和自身的策略函数来选择动作并输出给环境,从而与环境进行交互。
[0013]相比现有技术,本专利技术优点和积极效果在于:
[0014](1)传统多智能体强化学习算法忽略了多智能体系统自身存在的性质,本专利技术方法指明了多智能体系统中存在的旋转对称性,并基于多智能体系统的旋转对称性,对智能体与环境交互所产生的样本进行变换,产生额外样本用于智能体策略网络的训练,从而进一步提高多智能体强化学习算法的样本效率;
[0015](2)本专利技术方法研究发现了多智能体系统的全局对称性,利用该性质,使用旋转变换对智能体和环境交互所产生的样本进行数据增强,使用旋转矩阵对原始数据进行变换即可产生数据样本,无需与环境进行交互;
[0016](3)本专利技术方法使用旋转矩阵对二维向量进行变换,在旋转矩阵中可以指定任意角度对数据进行旋转,从而使得产生的样本数据更加多样性,使得训练后的智能体策略网络能够更好地处理未知状态。
[0017](4)本专利技术方法由于是在多智能体强化学习的过程中对数据进行增强,不会对原有的多智能体强化学习框架进行改变,因此可以将本专利技术方法与任何多智能体强化学习方法,比如MADDPG、VDN、QMIX等经典算法,进行结合使用。
[0018](5)本专利技术实现的对智能体训练数据的增强方法是一种即插即用的方法,无需任何特定MARL算法设计的假设,因此可以嵌入到任何多智能体强化学习算法中,具有十分广泛的应用。
附图说明
[0019]图1为多智能体的全局对称性的可视化示例图;
[0020]图2为本专利技术的基于旋转对称性的多智能体强化学习数据增强方法的流程图;
[0021]图3为本专利技术的基于旋转对称性的多智能体强化学习数据增强方法的模块结构
图。
具体实施方式
[0022]下面将结合附图和实施例对本专利技术作进一步的详细说明。
[0023]本专利技术首先研究了多智能体系统中的旋转对称性,发现多智能体系统中存在普遍的全局对称性。现有的主流MARL算法忽略了多智能体系统的内在对称性,而多智能体系统中最普遍的对称性是如图1所示的全局对称性。图1表示一个典型的多智能体导航任务,其中圆形表示智能体,叉表示目标点,智能体的目标是导航到目标点。在强化学习的训练过程中,使用智能体策略π1,π2,...,π
N
和环境交互,每次交互可产生样本(s,a,r,s'),其中s表示所有智能体的状态,即s=(s1,s2,...,s
N
),s
i
表示智能体i的状态。a表示所有智能体的动作a=(a1,a2,...,a
N
),s'表示智能体i在执行动作a
i
以后,所能到达的下一个状态s
i
'的集合,i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于旋转对称性的多智能体强化学习数据增强方法,其特征在于,包括:预先设置旋转角度β;设多智能体在环境中的当前状态为s,由各智能体的策略网络获得多智能体的动作向量a,各智能体执行各自的动作向量,获得执行动作后的奖励r以及执行动作后的多智能体状态s',获得样本(s,a,r,s');根据多智能体系统的全局对称性,根据旋转角度β对样本(s,a,r,s')进行旋转对称性变换得到增强样本(L[s],K
s
[a],r,L[s']),其中L[s]、K
s
[a]分别是对s、a执行旋转角度β后的智能体状态和智能体动作向量,旋转对称性变换后的奖励r和原奖励相同,L[s']是对s'执行旋转角度β后的状态;其中,设置矩阵将向量与矩阵T相乘得到旋转β后的向量;设置不同旋转角度β,对样本执行旋转对称性变换得到不同的增强样本;将所述增强样本与原始样本存入经验缓存池,用于训练智能体策略网络。2.根据权利要求1所...

【专利技术属性】
技术研发人员:罗杰于鑫冯埔
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1