本发明专利技术公开了一种统一的基于好奇心驱动的强化学习方法,用于智能体在奖励稀疏的情况下能够快速有效地学习策略。具体包括如下步骤:1)通过注意力模块获得状态可靠的特征表达;2)使用状态新颖性估计和前向动态预测来估计状态以及状态动作对的探索程度,即初步估计的内部奖励;3)使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;4)将不同类型的内部奖励进行融合,得到更加准确、鲁棒的内部奖励;5)智能体使用和环境交互产生的经验数据以及估计的内部奖励进行策略的学习。本发明专利技术适用于强化学习领域的稀疏奖励问题,能够在外部奖励比较稀疏或者不存在的情况下快速有效地学习策略。
【技术实现步骤摘要】
一种统一的基于好奇心驱动的强化学习方法
本专利技术属于强化学习领域,是机器学习领域的一个分支,特别地涉及一种统一的基于好奇心驱动的强化学习方法。
技术介绍
奖励函数是强化学习过程中很重要的一个因素,智能体是通过最大化累计奖励来学习策略的。但是在很多场景中,奖励往往是稀疏的,例如在围棋比赛中,只有最终才能收到赢或输的结果,中间的很多个动作无法获得及时的奖励,这给强化学习带来很大的挑战。传统方法一般是结合具体的任务,手工设计相应的奖励函数,但是这种方法对专业领域的知识要求很高,而且需要繁琐的调试,且很难在不同的任务之间进行迁移。现有的基于好奇心驱动的方法主要根据单一的度量方式,比如下一时刻状态的新颖程度或者当前状态动作对的新颖程度,来估计当前样本的内部奖励。而这种方式并没有从根本上解决三个问题:1.不同的好奇心驱动的方法关注的对象不同,使得估计出来的内部奖励无法充分有效地引导智能体进行探索和学习;2.由于状态空间很大,且存在很多与学习任务无关背景信息,这些信息会影响智能体对环境的感知能力,从而影响其学习策略;3.由于价值函数在状态空间是连续的,仅仅使用一个样本对相应对状态进行探索程度的估计可能会使得估计的结果不准确,从而影响学习的效率。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种统一的基于好奇心驱动的强化学习方法。该方法基于注意力模块对智能体所处环境有效的特征表达,利用加权平均的方法对使用状态新颖性估计和前向动态预测来估计对状态以及状态动作对的探索程度估计的内部奖励进行平滑,接着对上述两种方案估计的内部奖励进行融合,最后结合估计的内部奖励进行学习策略,从而提高智能体的学习速率和质量。为实现上述目的,本专利技术的技术方案为:一种统一的基于好奇心驱动的强化学习方法,其包括以下步骤:S1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;S4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。基于上述技术方案,本专利技术的各步骤还可以进一步采用以下优选实现方式。作为优选,步骤S1中所述的注意力模块为特征提取网络的一部分,通过该模块可以弱化无关的特征,从而获得关于状态更准确的特征表达;状态st经过注意力模块之后,获得的特征表达记为作为优选,步骤S2中所述的状态新颖性估计对下一步的状态st+1的探索程度进行估计,具体计算如下:其中:为下一个状态st+1的探索程度,h(st+1;θN)为第一深度网络对下一个状态st+1特征的预测值,θN为第一深度网络的参数,为特征提取网络提取到的st+1的深层卷积特征;同理,利用状态新颖性估计对当前状态st的探索程度进行估计,具体计算如下:其中:为当前状态st的探索程度,h(st;θC)为第二深度网络对当前状态st特征的预测值,θC为第二深度网络的参数,为特征提取网络提取到的st的深层卷积特征;然后,针对当前状态st下动作at的探索程度,使用前向动态预测来估计状态动作对的探索程度,具体计算如下:其中:为状态动作对的探索程度,为第三深度网络对当前状态st下执行动作at之后下一个状态特征的预测值,θF为第三深度网络的参数;所得的三种探索程度和即为初步估计的内部奖励。作为优选,所述步骤S3包括以下子步骤:S31、使用外部记忆体E来存储智能体和环境交互过程中产生的样本,当前的样本记为(st,at,st+1);在估计样本(st,at,st+1)对应的内部奖励时,首先在E中采样出与该样本距离小于阈值的D个样本,记为:S32、对D个样本分别根据步骤S2估计出三种探索程度,其中第j个样本(st,j,at,j,st+1,j)的三种探索程度记为:计算采样出的每个样本与样本(st,at,st+1)之间的相似程度,其中第j个样本与样本(st,at,st+1)之间的相似程度为:其中:d(st,j,st)为st,j和st之间的余弦距离;基于上述采样出样本的探索程度以及它们与当前时刻样本之间的相似程度,计算出采样样本探索程度的加权平均结果作为经过平滑后的内部奖励,计算过程如下:其中:分别为三种经过平滑后的探索程度估计值。作为优选,步骤S4中得到的三种经过平滑后的探索程度估计值和通过加权组合得到一个更加有效的统一的内部奖励值,计算过程如下:其中:为融合后的内部奖励,λ1、λ2、λ3是平衡三种不同内部奖励的超参数,且满足λ1+λ2+λ3=1。作为优选,步骤S5具体为:使用S4所述的方法估计样本(st,at,st+1)对应的融合后的内部奖励后,将其用于智能体学习价值函数,根据如下方程迭代地更新价值函数:其中:Q(st,at)为当前状态的价值函数,Q(st+1,at+1)为下一状态的价值函数,α为学习率,γ为折扣系数,表示取不同动作at+1对应的价值函数的最大值。本专利技术是一种统一的基于好奇心驱动的强化学习方法,相比于现有的基于好奇心驱动得的强化学习方法,具有以下有益效果:首先,本专利技术的一种统一的基于好奇心驱动的强化学习方法解决了外部奖励比较稀疏时智能体无法有效学习的问题,即结合使用状态新颖性估计和前向动态预测来估计对状态以及状态动作对的探索程度,作为估计的内部奖励,可以有效地增强智能体学习策略时的效率和质量。其次,本专利技术使用了注意力模块,能够获取状态的可靠的特征表达,去除了状态中无用的背景信息。基于这种特征计算出的内部奖励变得更加准确,从而提高了智能体学习策略的效率和质量。最后,本专利技术在评估样本的新颖性时,使用状态空间中的多个样本对估计出的内部奖励进行加权平均,能够减少使用单个样本评估时带来的不稳定性,从而获得更加鲁棒的内部奖励,从而提升了智能体学习策略的效率和质量。本专利技术的一种统一的基于好奇心驱动的强化学习方法,在外部奖励比较稀疏的情况下,能够增强智能体探索效率,提升智能体的学习能力和学习质量,具有良好的应用价值。例如,在棋类游戏场景里,本专利技术的样本新颖性评估方法能够从不同角度对样本进行评估,能够获得更加有效的内部奖励,从而能够快速有效地探索新的场景,学习新的策略。附图说明图1为注意力模块提取的特征在状态上可视化的结果示意图;图2为本专利技术提出的内部奖励平滑计算方式与传统计算方式对比的示意图:a)内部奖励的传统计算方式示意图;b)本专利技术提出的内部奖励平滑计算方式示意图;图3为本专利技术提出的一种统一的基于好奇心驱动的强化学习方法与目前另外两种著名的基本文档来自技高网...
【技术保护点】
1.一种统一的基于好奇心驱动的强化学习方法,其特征在于包括以下步骤:/nS1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;/nS2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;/nS3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;/nS4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;/nS5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。/n
【技术特征摘要】
1.一种统一的基于好奇心驱动的强化学习方法,其特征在于包括以下步骤:
S1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;
S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;
S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;
S4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;
S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。
2.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S1中所述的注意力模块为特征提取网络的一部分,通过该模块可以弱化无关的特征,从而获得关于状态更准确的特征表达;状态st经过注意力模块之后,获得的特征表达记为
3.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S2中所述的状态新颖性估计对下一步的状态st+1的探索程度进行估计,具体计算如下:
其中:为下一个状态st+1的探索程度,h(st+1;θN)为第一深度网络对下一个状态st+1特征的预测值,θN为第一深度网络的参数,为特征提取网络提取到的st+1的深层卷积特征;
同理,利用状态新颖性估计对当前状态st的探索程度进行估计,具体计算如下:
其中:为当前状态st的探索程度,h(st;θC)为第二深度网络对当前状态st特征的预测值,θC为第二深度网络的参数,为特征提取网络提取到的st的深层卷积特征;
然后,针对当前状态st下动作at的探索程度,使用前向动态预测来估计状态动作对的探索程度,具体计算如下:
其中:为状态动作对的探索程度,为第三深度网络对当前状态st下执行动作at之后下一个状态特征的预测值,θF为第三深度网络的参数;
所得的三种探索程度和...
【专利技术属性】
技术研发人员:李玺,皇福献,崔家宝,李伟超,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。