【技术实现步骤摘要】
优化经验存储与经验再利用的多智能体强化学习方法
[0001]本专利技术属于深度强化学习
,特别是一种结合最近最少使用机制和优先级混合采样机制的多智能体经验回放方法。
技术介绍
[0002]近年来,受生物神经网络结构和信息传递机制启发产生的人工神经网络成为机器学习领域的热点研究方向之一。其中,深度学习方法已经在计算机视觉、智能推荐、自动驾驶等诸多领域均表现出优异的性能。与此同时,强化学习作为机器学习领域的另一重要分支,被广泛应用于序列决策问题中。深度强化学习方法将深度学习与强化学习相结合,其主要特点在于利用深度学习对高维状态信息的感知和抽象能力,控制智能体与环境进行交互,从而不断地尝试与学习。
[0003]深度强化学习作为一种弱监督学习方法,缺乏有效的人工干预与调控,智能体需要大量的环境交互才能获得满意的控制策略。在实际使用环境中,深度强化学习存在智能体的动作输出缺乏合理性、环境奖励信号稀疏、回报函数设计困难等问题。因此,大量的环境交互在真实环境中是不可行的,低下的样本利用率成为了目前深度强化学习算法在实际场景中广泛应用的主要瓶颈。
[0004]经验回放是解决深度强化学习算法中样本利用率低的一个重要手段,经验回放方法使用经验缓冲池将每个时间步产生的样本统一存储,每个经验样本包含当前时刻的状态、当前状态下采取的动作、环境给予的奖励和智能体执行动作后转移到的下一状态,网络训练时从经验缓冲池中随机选取己存储的样本。经验回放机制通过经验池化的方式实现了神经网络训练过程中经验样本数据的再利用,同时通过随机选 ...
【技术保护点】
【技术特征摘要】
1.一种优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,所述方法包括以下步骤:步骤1,初始化当前Q网络的所有参数ω,目标Q网络的所有参数ω
′
=ω,以及经验池的容量N,设置批量梯度下降的样本数m以及目标Q网络的参数更新时间步长T;步骤2,进行基于多线程的多智能体经验收集:通过网络权值共享,使用多线程技术部署多个智能体Agent同时和环境进行交互,在每个时间点上,不同线程中的Agent,依概率采取不完全相同的探索策略从环境中获取经验样本;步骤3,计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值;步骤4,在更新当前训练策略时,从全局共享经验池中采用混合采样方法采样m个经验样本,并依据最近最少使用机制对该经验池中经验的时间属性进行更新;其中,m为设定批量梯度下降的样本数值;步骤5,利用采样得到的m个经验样本对当前Q网络进行训练,本次训练结束后,重新计算经验池中所有经验样本的TD error,对全局共享经验池中经验的优先级进行更新,并判断训练步数是否达到预设的最大值,若否,返回步骤3,否则结束流程。2.根据权利要求1所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤2中Agent在时间点t与环境交互获得的经验为五元组{s
t
,a
t
,r
t
,s
t+1
,is_end},其中,s
t
为t时刻Agent所处环境的状态,同时也是当前Q网络的输入,a
t
表示t时刻Agent所执行的动作,环境根据Agent的状态和动作转移到下一时刻的状态s
t+1
并给出这一次动作得到的环境奖励r
t
,is_end表示当前状态是否已经是终止状态。3.根据权利要求1或2所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤2所述基于多线程的多智能体经验收集,具体过程包括:部署一个公共的神经网络模型,基于该模型开辟n个线程,每个线程里有和公共的神经网络模型一样的网络结构和参数,每个线程会独立地和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行;每个单独的采样Agent与自身环境进行交互生成经验样本,并将所有采样Agent产生的经验样本统一存储到共享的经验缓冲池中,每个Agent采用ε
‑
greedy策略选择动作,具体地:每个状态下以1
‑
ε的概率选择具有最大状态动作值函数的动作,以ε的概率选择随机动作。4.根据权利要求3所述的优化经验存储与经验再利用的多智能体强化学习方法,其特征在于,步骤3所述计算经验样本时间差分误差TD error的绝对值,并将该条经验插入到以TD error作为索引的全局共享经验池中,同时基于最近最少使用机制更新全局共享经验池中所有经验的时间属性值,具体过程包括:步骤3
‑
1,计算当前时刻t经验样本的时间差分误差δ
t
:δ
t
=Q
*
(s
t
,a
t
)
‑
y
t
式中,s
t
为t时刻Agent所处环境的状态,a
t
表示t时刻Agent所执行的动作,y
t
表示t时刻的TD target,Q
*
(s
t
,a
t
)为在状态s
t
时采取动作a
t
,为使用蒙特卡洛近似方法计算出的当前Q网络最大累积未来奖励期望的近似,具体如下:
式中,r
t
为t时刻Agent和环境进行交互后得到的实时奖励,γ为折扣回报率,s
t+1
为Agent执行动作后转移到的新状态;步骤3
‑
2,取计算得到的时间差分误差的绝对值|δ
t
|作为经验样本的优先级权重,若经验五元组当前无法计算出时间差分误差,则将其优先级设置为预设的最大值,接着将该经验样本的优先级作为索引插入到以B
+
树作为存储结构的全局共享经验池中,该树的非叶子节点只保存经验样本的优先级,而叶子结点同时保存经验的优先级和经验五元组本身;全局共享经验池中的每条经验的时间属性由最近最少使用原则得出:将当前插入全局共享经验池中的经验的时间属性设为0,并...
【专利技术属性】
技术研发人员:吴益飞,赵鹏,陈庆伟,郭健,李胜,樊卫华,成爱萍,郑瑞琳,梁皓,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。