优化经验回放采样策略的强化学习方法技术

技术编号：25044477 阅读：16 留言：0更新日期：2020-07-29 05:34

本发明专利技术公开了一种优化经验回放采样策略的强化学习方法，包括：步骤1、在每个时刻，智能体和环境交互得到经验，并将经验存储在经验回放池中；步骤2、在更新当前训练策略时，从经验回放池中等概率随机采样λ·B个经验样本；其中，B为设定的数值，λ≥1控制着优先化采样的程度；步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性，从而选出相似性最大的前B个经验样本；步骤4、使用选出的B个经验样本对当前训练策略进行训练；步骤5、本次训练结束后，判断训练步数是否达到最大值，若否，则返回步骤2。该方法通过改进经验回放采样策略，显著提高强化学习的效率，并且保持了强化学习训练的高效性。

全部详细技术资料下载

【技术实现步骤摘要】
优化经验回放采样策略的强化学习方法
本专利技术涉及强化学习
，尤其涉及一种优化经验回放采样策略的强化学习方法。
技术介绍
近年来，随着在围棋、视频游戏及仿真机器人控制上的突破性成功，深度强化学习已经成为人工智能领域的一个重要研究方向。许多工作致力于扩大强化学习算法在不同场景中的泛用性，而将强化学习算法用于机器人的控制中是其中的方向之一。然而，虽然目前的强化学习算法在许多任务上均表现出优异的性能，但它们往往需要大量的环境交互才能训练出性能足够好的策略。在真实环境中，环境交互意味着智能体需要在真实的环境中行动。智能体(如机器人)在真实环境中的行动的耗时远大于仿真环境，而且需要额外的人力监督和电力资源等。因此，大量的环境交互在真实环境中是不可行的，低下的样本效率限制了目前强化学习算法在实际场景中的广泛应用。经验回放技术是目前深度强化学习算法中的一个重要组成部分。经验回放将过去智能体的经验储存在一个经验回放池中，然后从经验回放池中反复采样来对策略进行优化。通过多次利用过去的经验来训练当前策略，经验回放提高了强化学习算法的样本效率和训练稳定性。最原始的经验回放技术在采样时是从回放池中均匀等概率地采样，然而，经验回放池中不同样本对优化当前策略的重要程度是不一样的。简单的等概率采样无视了样本之间不同的重要程度，而通过更频繁地采样重要的样本，可以加速策略的学习，进一步提高算法的样本效率。由于样本的重要性无法直接定量地衡量，现有的经验回放优化算法大都致力于设计一个样本重要性的替代指标。优先经验回放(Priorit...

【技术保护点】
1.一种优化经验回放采样策略的强化学习方法，其特征在于，包括：/n步骤1、在每个时刻，智能体和环境交互得到经验，并将经验存储在经验回放池中；/n步骤2、在更新当前训练策略时，从经验回放池中等概率随机采样λ·B个经验样本；其中，B为设定的数值，λ≥1控制着优先化采样的程度；/n步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性，从而选出相似性最大的前B个经验样本；/n步骤4、使用选出的B个经验样本对当前训练策略进行训练；/n步骤5、本次训练结束后，判断训练步数是否达到最大值，若否，则返回步骤2。/n

【技术特征摘要】
1.一种优化经验回放采样策略的强化学习方法，其特征在于，包括：
步骤1、在每个时刻，智能体和环境交互得到经验，并将经验存储在经验回放池中；
步骤2、在更新当前训练策略时，从经验回放池中等概率随机采样λ·B个经验样本；其中，B为设定的数值，λ≥1控制着优先化采样的程度；
步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性，从而选出相似性最大的前B个经验样本；
步骤4、使用选出的B个经验样本对当前训练策略进行训练；
步骤5、本次训练结束后，判断训练步数是否达到最大值，若否，则返回步骤2。

2.根据权利要求1所述的一种优化经验回放的强化学习方法，其特征在于，时刻t的经验et＝(st,at,rt,st+1)，其中，st、st+1分别...

【专利技术属性】
技术研发人员：李厚强，周文罡，孙培泉，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人