优化经验回放采样策略的强化学习方法技术

技术编号:25044477 阅读:16 留言:0更新日期:2020-07-29 05:34
本发明专利技术公开了一种优化经验回放采样策略的强化学习方法,包括:步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中;步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本;其中,B为设定的数值,λ≥1控制着优先化采样的程度;步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性,从而选出相似性最大的前B个经验样本;步骤4、使用选出的B个经验样本对当前训练策略进行训练;步骤5、本次训练结束后,判断训练步数是否达到最大值,若否,则返回步骤2。该方法通过改进经验回放采样策略,显著提高强化学习的效率,并且保持了强化学习训练的高效性。

【技术实现步骤摘要】
优化经验回放采样策略的强化学习方法
本专利技术涉及强化学习
,尤其涉及一种优化经验回放采样策略的强化学习方法。
技术介绍
近年来,随着在围棋、视频游戏及仿真机器人控制上的突破性成功,深度强化学习已经成为人工智能领域的一个重要研究方向。许多工作致力于扩大强化学习算法在不同场景中的泛用性,而将强化学习算法用于机器人的控制中是其中的方向之一。然而,虽然目前的强化学习算法在许多任务上均表现出优异的性能,但它们往往需要大量的环境交互才能训练出性能足够好的策略。在真实环境中,环境交互意味着智能体需要在真实的环境中行动。智能体(如机器人)在真实环境中的行动的耗时远大于仿真环境,而且需要额外的人力监督和电力资源等。因此,大量的环境交互在真实环境中是不可行的,低下的样本效率限制了目前强化学习算法在实际场景中的广泛应用。经验回放技术是目前深度强化学习算法中的一个重要组成部分。经验回放将过去智能体的经验储存在一个经验回放池中,然后从经验回放池中反复采样来对策略进行优化。通过多次利用过去的经验来训练当前策略,经验回放提高了强化学习算法的样本效率和训练稳定性。最原始的经验回放技术在采样时是从回放池中均匀等概率地采样,然而,经验回放池中不同样本对优化当前策略的重要程度是不一样的。简单的等概率采样无视了样本之间不同的重要程度,而通过更频繁地采样重要的样本,可以加速策略的学习,进一步提高算法的样本效率。由于样本的重要性无法直接定量地衡量,现有的经验回放优化算法大都致力于设计一个样本重要性的替代指标。优先经验回放(PrioritizedExperienceReplay,PER)用时间差分(TD-error)的大小作为样本来近似表示样本的重要性。该算法认为,时间差分大的样本对网络的“惊喜”程度大,表明网络对该样本对预测有更大的不确定性,因而有更高的训练价值。铭记与遗忘经验回放(RememberandForgetExperienceReplay,Ref-ER)用样本与当前策略等相似程度作为重要程度等指标。Ref-ER只用接近于当前策略的样本来进行训练,并且保持策略改变的程度在一定范围内,不会偏离产生样本的策略过多。用接近当前策略的样本对策略进行优化有利于策略对稳定,加快策略的学习速度。经验回放优化(ExperienceReplayOptimization,ERO)不像于PER和Ref-ER认为设计一个采样策略,ERO通过用额外的强化学习算法训练一个策略来对采样策略进行优化。通过让采样策略自适应学习,可以让该策略得到优化。现有技术缺点1:PER方法在基于值的强化学习算法中效果较好,然而在基于策略优化的算法中,特别是演员-批评家(actor-critic)算法中,性能不好。由于演员-批评家有两个神经网络—价值网络和策略网络,PER根据价值网络的时间差分值来选取样本。根据此选出的样本对价值网络的训练价值较大,然而选出的样本对策略网络的训练不一定高效,因此在实际应用中,PER在基于策略优化的算法中的性能并不好。现有技术缺点2:Ref-ER方法在采样时需要判断一个样本是否与当前的策略接近。为了做此判断,需要储存产生该样本时的动作的概率。对于一个相同的样本,产生它时的概率不同对该样本是否该用于训练的判断也不同。某个样本是否应该被用于采样应该由该样本自身决定,而与产生它的策略无关。现有技术缺点3:ERO方法需要额外训练一个强化学习策略,增加了学习成本,提高了复杂度。通过以上说明可知,由于现有技术在泛用性、采样方法与训练成本上有诸多问题,从而制约了它们的使用场景,因此,有必要对强化学习算法中的经验回放采样方法进行改进,以提升强化学习算法的训练效率。
技术实现思路
本专利技术的目的是提供一种优化经验回放采样策略的强化学习方法,通过改进经验回放采样策略,显著提高强化学习的效率,并且保持了强化学习训练的高效性。本专利技术的目的是通过以下技术方案实现的:一种优化经验回放采样策略的强化学习方法,包括:步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中;步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本;其中,B为设定的数值,λ≥1控制着优先化采样的程度;步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性,从而选出相似性最大的前B个经验样本;步骤4、使用选出的B个经验样本对当前训练策略进行训练;步骤5、本次训练结束后,判断训练步数是否达到最大值,若否,则返回步骤2。由上述本专利技术提供的技术方案可以看出,该方法通过改进经验回放采样策略,从而提高强化学习的效率。改进的经验回放采样策略能够与所有带经验回放的强化学习算法相结合,而且能应用到不同的强化学习任务上,不仅能够显著提高学习效率,并且改进的经验回放采用策略几乎没有引入额外的计算复杂度,保持了强化学习训练的高效性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种优化经验回放采样策略的强化学习方法的示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种优化经验回放采样策略的强化学习方法,经验回放是强化学习中重要的组成部分,它的优化直接影响了强化学习的学习效率、稳定性以及最终学得的性能。为此,我们针对经验回放采样策略进行改进,从而尽可能的多采样包含当前训练策略下经常访问的状态的样本进行训练,使得训练策略在这些状态上的性能提高,从而提高整体的性能。根据改进的经验回放采样策略,在不同的强化学习任务,结合不同的强化学习算法,均使得学习效率得到了提高。如图1所示,其主要包括:步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中。本专利技术实施例中,时刻t的经验et=(st,at,rt,st+1),其中,st、st+1分别表示时刻t、t+1的状态,at表示时刻t的动作,rt表示时刻t的回报,一个时刻对应一个训练步,定义T为训练最大步数,t=1,…,T。经验回放池的大小一般事先设定,与T的数值无关,一般情况下T会大于n。步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本。其中,B为设定的数值(例如,为100数量级),λ≥1控制着优先化采样的程度。当λ=1时,对应于等概率均匀采样。λ=n时,n为经验回放池的大小,对应于从整个经验回放池中挑选最相近的B个样本进行训练;在实际实验中本文档来自技高网
...

【技术保护点】
1.一种优化经验回放采样策略的强化学习方法,其特征在于,包括:/n步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中;/n步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本;其中,B为设定的数值,λ≥1控制着优先化采样的程度;/n步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性,从而选出相似性最大的前B个经验样本;/n步骤4、使用选出的B个经验样本对当前训练策略进行训练;/n步骤5、本次训练结束后,判断训练步数是否达到最大值,若否,则返回步骤2。/n

【技术特征摘要】
1.一种优化经验回放采样策略的强化学习方法,其特征在于,包括:
步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中;
步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本;其中,B为设定的数值,λ≥1控制着优先化采样的程度;
步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性,从而选出相似性最大的前B个经验样本;
步骤4、使用选出的B个经验样本对当前训练策略进行训练;
步骤5、本次训练结束后,判断训练步数是否达到最大值,若否,则返回步骤2。


2.根据权利要求1所述的一种优化经验回放的强化学习方法,其特征在于,时刻t的经验et=(st,at,rt,st+1),其中,st、st+1分别...

【专利技术属性】
技术研发人员:李厚强周文罡孙培泉
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1