优化经验存储与经验再利用的多智能体强化学习方法技术

技术编号:37744944 阅读:11 留言:0更新日期:2023-06-05 23:31
本发明专利技术公开了一种优化经验存储与经验再利用的多智能体强化学习方法,包括:构建了基于LRU(Least recently used,最近最少使用)机制进行经验存储的经验缓冲池;设计基于网络权值共享的多智能体经验收集方法;采用一种基于经验优先级的混合采样方法来为较高优先级数据提供较高的检索率,并采用B

【技术实现步骤摘要】
优化经验存储与经验再利用的多智能体强化学习方法


[0001]本专利技术属于深度强化学习
,特别是一种结合最近最少使用机制和优先级混合采样机制的多智能体经验回放方法。

技术介绍

[0002]近年来,受生物神经网络结构和信息传递机制启发产生的人工神经网络成为机器学习领域的热点研究方向之一。其中,深度学习方法已经在计算机视觉、智能推荐、自动驾驶等诸多领域均表现出优异的性能。与此同时,强化学习作为机器学习领域的另一重要分支,被广泛应用于序列决策问题中。深度强化学习方法将深度学习与强化学习相结合,其主要特点在于利用深度学习对高维状态信息的感知和抽象能力,控制智能体与环境进行交互,从而不断地尝试与学习。
[0003]深度强化学习作为一种弱监督学习方法,缺乏有效的人工干预与调控,智能体需要大量的环境交互才能获得满意的控制策略。在实际使用环境中,深度强化学习存在智能体的动作输出缺乏合理性、环境奖励信号稀疏、回报函数设计困难等问题。因此,大量的环境交互在真实环境中是不可行的,低下的样本利用率成为了目前深度强化学习算法在实际场景中广泛应用的主要瓶颈。
[0004]经验回放是解决深度强化学习算法中样本利用率低的一个重要手段,经验回放方法使用经验缓冲池将每个时间步产生的样本统一存储,每个经验样本包含当前时刻的状态、当前状态下采取的动作、环境给予的奖励和智能体执行动作后转移到的下一状态,网络训练时从经验缓冲池中随机选取己存储的样本。经验回放机制通过经验池化的方式实现了神经网络训练过程中经验样本数据的再利用,同时通过随机选取经验的方式克服了经验数据间的相关性(correlated data)和非平稳分布(non

stationary distribution)问题。
[0005]然而,经验池中的不同经验样本对于网络权重更新的贡献是不同的,传统的基于先入先出机制的存储方式和均匀抽样的采样方式无视了不同样本之间的重要程度,所有的经验样本具有相同的被抽样概率,使用均匀抽样策略会导致网络收敛困难,易陷入局部极小值等问题。同时,如果频繁使用过时的经验样本去更新Agent的决策模型,就可能影响Agent在后续训练过程中获得的最大期望回报,从而增大了Agent的学习难度,延长了学习时间。
[0006]在深度强化学习中可以通过时间差分误差的绝对值来衡量经验的重要程度,当时间差分误差的绝对值越大时,代表当前状态价值网络做出的估计较真实值差距较大,对神经网络反向传播的权重贡献也较大;而当时间差分误差越小,则代表样本对于反向梯度的计算影响并不大。目前基于贪心策略的优先经验回放方法存在如下弊端:(1)某一个样本的时间差分误差不高,只能说明其对于训练时反馈的信息量较低,但并不代表其对于权重的更新毫无贡献,若用贪心算法则可能会错过一些样本包含的重要信息。(2)使用贪心算法使得策略只会选择时间差分误差大的样本去反复训练,从而会造成结果过拟合。(3)深度强化学习算法中经验池容量的数量级一般设置较大,采用线性存储的方式在抽取经验时需要通
过逐条比对的方式进行查找,搜索算法时间复杂度较高。
[0007]因此,对深度强化学习算法中的经验存储方式和采样方法进行改进是有必要的,可以进一步提升深度强化学习算法的训练效率和泛用性。

技术实现思路

[0008]本专利技术的目的在于针对上述现有技术存在的问题,提供一种优化经验回放存储方式和采样策略的深度强化学习方法,该方法能显著提高深度强化学习算法的收敛速度和稳定性。
[0009]实现本专利技术目的的技术解决方案为:一种优化经验存储与经验再利用的多智能体强化学习方法,所述方法包括以下步骤:
[0010]步骤1,初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω

=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T;
[0011]步骤2,进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索策略从环境中获取经验样本;
[0012]步骤3,计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值;
[0013]步骤4,在更新当前训练策略时,从全局共享经验池中采用混合采样方法采样m个经验样本,并依据最近最少使用机制对该经验池中经验的时间属性进行更新;其中,m为设定批量梯度下降的样本数值;
[0014]步骤5,利用采样得到的m个经验样本对当前Q网络进行训练,本次训练结束后,重新计算经验池中所有经验样本的TD error,对全局共享经验池中经验的优先级进行更新,并判断训练步数是否达到预设的最大值,若否,返回步骤3,否则结束流程。
[0015]一种优化经验存储与经验再利用的多智能体强化学习系统,所述系统包括依次执行的:
[0016]初始化模块,用于初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω

=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T;
[0017]多智能体经验收集模块,用于进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索策略从环境中获取经验样本;
[0018]经验池构建模块,用于计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值;
[0019]更新模块,用于在更新当前训练策略时,从全局共享经验池中采用混合采样方法采样m个经验样本,并依据最近最少使用机制对该经验池中经验的时间属性进行更新;其中,m为设定批量梯度下降的样本数值;
[0020]训练模块,用于利用采样得到的m个经验样本对当前Q网络进行训练,本次训练结
束后,重新计算经验池中所有经验样本的TD error,对全局共享经验池中经验的优先级进行更新,并判断训练步数是否达到预设的最大值,若否,返回经验池构建模块。
[0021]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0022]步骤1,初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω

=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T;
[0023]步骤2,进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,所述方法包括以下步骤:步骤1,初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω

=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T;步骤2,进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索策略从环境中获取经验样本;步骤3,计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值;步骤4,在更新当前训练策略时,从全局共享经验池中采用混合采样方法采样m个经验样本,并依据最近最少使用机制对该经验池中经验的时间属性进行更新;其中,m为设定批量梯度下降的样本数值;步骤5,利用采样得到的m个经验样本对当前Q网络进行训练,本次训练结束后,重新计算经验池中所有经验样本的TD error,对全局共享经验池中经验的优先级进行更新,并判断训练步数是否达到预设的最大值,若否,返回步骤3,否则结束流程。2.根据权利要求1所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤2中Agent在时间点t与环境交互获得的经验为五元组{s
t
,a
t
,r
t
,s
t+1
,is_end},其中,s
t
为t时刻Agent所处环境的状态,同时也是当前Q网络的输入,a
t
表示t时刻Agent所执行的动作,环境根据Agent的状态和动作转移到下一时刻的状态s
t+1
并给出这一次动作得到的环境奖励r
t
,is_end表示当前状态是否已经是终止状态。3.根据权利要求1或2所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤2所述基于多线程的多智能体经验收集,具体过程包括:部署一个公共的神经网络模型,基于该模型开辟n个线程,每个线程里有和公共的神经网络模型一样的网络结构和参数,每个线程会独立地和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行;每个单独的采样Agent与自身环境进行交互生成经验样本,并将所有采样Agent产生的经验样本统一存储到共享的经验缓冲池中,每个Agent采用ε

greedy策略选择动作,具体地:每个状态下以1

ε的概率选择具有最大状态动作值函数的动作,以ε的概率选择随机动作。4.根据权利要求3所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤3所述计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值,具体过程包括:步骤3

1,计算当前时刻t经验样本的时间差分误差δ
t
:δ
t
=Q
*
(s
t
,a
t
)

y
t
式中,s
t
为t时刻Agent所处环境的状态,a
t
表示t时刻Agent所执行的动作,y
t
表示t时刻的TD target,Q
*
(s
t
,a
t
)为在状态s
t
时采取动作a
t
,为使用蒙特卡洛近似方法计算出的当前Q网络最大累积未来奖励期望的近似,具体如下:
式中,r
t
为t时刻Agent和环境进行交互后得到的实时奖励,γ为折扣回报率,s
t+1
为Agent执行动作后转移到的新状态;步骤3

2,取计算得到的时间差分误差的绝对值|δ
t
|作为经验样本的优先级权重,若经验五元组当前无法计算出时间差分误差,则将其优先级设置为预设的最大值,接着将该经验样本的优先级作为索引插入到以B
+
树作为存储结构的全局共享经验池中,该树的非叶子节点只保存经验样本的优先级,而叶子结点同时保存经验的优先级和经验五元组本身;全局共享经验池中的每条经验的时间属性由最近最少使用原则得出:将当前插入全局共享经验池中的经验的时间属性设为0,并...

【专利技术属性】
技术研发人员:吴益飞赵鹏陈庆伟郭健李胜樊卫华成爱萍郑瑞琳梁皓
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1