一种强化学习方法及相关装置制造方法及图纸

技术编号:27977456 阅读:27 留言:0更新日期:2021-04-06 14:12
本申请公开了一种强化学习方法及相关装置,其中,所述强化学习方法使用的正则化项为基于样本的正则化项,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,且建模了所执行动作之间的相互影响,利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。另外,利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息,且可以与更广泛的策略结构兼容。

【技术实现步骤摘要】
一种强化学习方法及相关装置
本申请涉及机器学习
,更具体地说,涉及一种强化学习方法及相关装置。
技术介绍
强化学习(ReinforcementLearning,RL)在视频游戏和机器人控制等领域中取得了巨大的成功。强化学习的目标是通过最大化累积回报来找到一个最优的策略,这通常会导致一个确定的策略。而在实际应用中,采用随机策略的效果优于采用确定性策略的效果。例如,对于新任务,随机策略往往可以更好地探索;此外,在发生意外情况时,使用随机策略往往比使用确定性策略的鲁棒性更好。为了学习随机策略,现有的学习方法存在多方面的缺陷,其中主要问题包括针对复杂策略的学习效率低下的问题。
技术实现思路
为解决上述技术问题,本申请提供了一种强化学习方法及相关装置,以实现提高针对复杂策略的强化学习效率的目的。为实现上述技术目的,本申请实施例提供了如下技术方案:一种强化学习方法,包括:获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;根据所述累计期望奖励对所述预设策略进行优化;对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。可选的,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,所述第二部分建模了所执行动作之间的相互影响。可选的,所述第一部分包括:所述第二部分包括:所述基于样本的正则化项的表达式包括:其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,表示包含多个操作的紧凑操作空间,表示实数集。可选的,其中,||||2表示二范数,u表示等概率的均匀分布。可选的,其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。可选的,所述根据所述累计期望奖励对所述预设策略进行优化过程使用的目标函数包括:其中,st,at表示时刻t时对应的状态和动作,Π表示策略集,α≥0表示超参数,γ∈(0,1)为折扣系数,表示预设策略,Δ是上的一组波莱尔概率度量,表示有界奖励函数,Rmin和Rmax分别表示有界奖励函数的上界和下界。可选的,所述获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括:对获取的所述环境交互信息在预设样本库中进行存储和随机回放。一种强化学习系统,包括:数据采集模块,用于获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;评价器训练模块,用于从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;执行器训练模块,用于根据所述累计期望奖励对所述预设策略进行优化;正则项模块,用于对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。一种强化学习系统,包括:存储器和处理器;所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,所述程序代码用于执行上述任一项所述的强化学习方法。一种存储介质,所述存储介质上存储有程序代码,所述程序代码被执行时实现上述任一项所述的强化学习方法。从上述技术方案可以看出,本申请实施例提供了一种强化学习方法及相关装置,其中,所述强化学习方法使用的正则化项为基于样本的正则化项,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,且建模了所执行动作之间的相互影响,利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。另外,利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息,且可以与更广泛的策略结构兼容。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请的一个实施例提供的一种强化学习方法的流程示意图;图2为本申请的另一个实施例提供的一种强化学习方法的流程示意图;图3为本申请的一个实施例提供的仿真机器人的控制环境;图4为本申请的一个实施例提供的训练效果对比示意图;图5为本申请的一个实施例提供的训练效果对比曲线图。具体实施方式正如
技术介绍
中所述,现有技术中学习随机策略的方法主要包括软执行器-评价器(SoftActorCritic)、软Q学习(SoftQ-learning)以及路径一致性学习(PathConsistencyLearning)等方法,这些方法均利用了基于熵正则化的强化学习框架。这类框架中,智能体除了最大化将例外,还需要最大化一个额外的熵正则项。常用的熵项包括香农熵(Shannonentropy)和Tsallis熵。前者可以提高策略学习的样本效率,即使用更少的样本学到更好的策略;而使用后者的解更接近原强化学习问题的最优解。然而熵正则化往往陷入简单的策略表示与复杂低效的训练过程之间的两难选择。现有的正则项的一般形式为:以前的方法通过平均值对该正则项进行估计,其中N是样本数,从策略π(·∣s)中采样。使用估计方式时,概率密度的计算需要是简单的。因此,常用的熵正则化强化学习方法通常用简单的分布,如高斯分布,来表示策略。然而近期的研究显示,使用简单分布表征策略存在多方面的缺陷,包括低效的探索,更容易陷入局部最优,无法学习多目标策略等。近年来,一些方法尝试使用复杂的网络结构作为策略,以增强策略的表达能力。然而,这些方法通常需要低效的推理过程来优化策略或使用复杂的概率密度计算本文档来自技高网
...

【技术保护点】
1.一种强化学习方法,其特征在于,包括:/n获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;/n从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;/n根据所述累计期望奖励对所述预设策略进行优化;/n对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。/n

【技术特征摘要】
1.一种强化学习方法,其特征在于,包括:
获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
根据所述累计期望奖励对所述预设策略进行优化;
对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。


2.根据权利要求1所述的方法,其特征在于,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,所述第二部分建模了所执行动作之间的相互影响。


3.根据权利要求2所述的方法,其特征在于,所述第一部分包括:所述第二部分包括:
所述基于样本的正则化项的表达式包括:其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,表示包含多个操作的紧凑操作空间,表示实数集。


4.根据权利要求3所述的方法,其特征在于,其中,||||2表示二范数,u表示等概率的均匀分布。


5.根据权利要求3所述的方法,其特征在于,
其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。


6.根据权利要求4或5任一项所述的方...

【专利技术属性】
技术研发人员:王杰李厚强周祺匡宇飞
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1