引导型策略搜索强化学习算法制造技术

技术编号:13747592 阅读:34 留言:0更新日期:2016-09-24 04:28
本发明专利技术涉及一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。本发明专利技术通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明专利技术定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索,从而避免情况较坏的局部最优。

【技术实现步骤摘要】

本专利技术属于机器学习领域,主要涉及到强化学习算法,尤其是一种面向连续状态动作空间的策略搜索强化学习算法。
技术介绍
机器学习是人工智能的核心研究领域之一,其研究动机就是为了让计算机系统具有人的学习能力以便实现人工智能。强化学习作为机器学习领域的重要学习方法,在游戏、机器人、调度系统、智能对话系统、存储系统、智能发电量控制、智能交通系统、无人驾驶车及航空航天系统等领域已得到广泛的应用。强化学习是一个连续做出决策的过程,它不需要有先验知识,而是智能体通过不断与环境交互来获得知识,自主的进行动作选择,从而找到一个最优的动作选择策略,使智能体在决策过程中整体的回报期望最优。在国内外已有的研究中,强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计,策略是建立在估计的价值函数基础上。此类策略迭代算法能够有效地解决离散的状态动作空间问题,但是由于价值函数的极度非凸性,难以在每一个时间步骤都通过最大化价值函数来选择动作,因此,此类方法不适用于解决大规模连续动作空间问题。策略搜索方法是强化学习方法的另一类算法,此类算法非常适用于大规模具有连续状态及动作空间的智能系统。然而,传统的策略搜索算法的一大问题便在于策略更新时策略梯度方差过大,使得算法不稳定且收敛慢。为了解决梯度估计方差过大的实质性问题,基于参数探索的策略梯度方法被提出来了,被称为PGPE算法。在申请人的前期工作中已经实践性并理论性地验证了PGPE算法的稳定性。然而,策略搜索算法需要大量的学习样本才能得到准确稳定的策略,即使是PGPE算法也不例外。而收集大量的学习样本则恰恰是强化学习在实际应用中的一个瓶颈问题,因为收集样本往往非常耗时耗力耗材。为了解决这个实际存在的瓶颈问题,有效利用学习样本的重要性便凸显出来。重要采样技术是能够重复利用已有样本的一种有效方法,该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计,从而能重复利用已收集过的样本且能够保证估计子的一致性。但是,盲目地使用重要采样技术使得梯度估计的方差变大,从而降低算法稳定性及收敛率。通过进一步地对重复利用学习样本的策略搜索方法深入研究发现,样本的选择对算法的性能有直接影响。此外,通常强化学习解决的问题是极其复杂的非凸问题,因此,局部最优解是强化学习领域不可避免的一个潜在问题,而高质量引导型样本的使用能够有效地避免情况极差的局部最优解。本专利将利用积极学习的基本想法,寻找有助于找到更好最优解的引导型学习样本,从而得到能够避免不好的局部最优解的引导型策略搜索算法。通过检索,尚未发现有与本申请相关的专利、文献报道。
技术实现思路
本专利技术的目的在于克服现有技术的不足之处,提供一种引导型策略搜索强化学习算法,该算法能够有效地重复使用学习样本,且能够选择高质量样本引导策略搜索,从而避免情况较差的局部最优。本专利技术解决技术问题所采用的技术方案是:一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为: Φ ( ρ ) = J I W ( ρ ) + λ 1 logΣ i = 1 N ′ w ( θ ′ i ) + λ 2 Σ i = 1 N ′ 1 1 + V a r ( w ( θ ′ i ) ) ]]>JIW(ρ)为重要采样技术下的原始目标函数,即寻找最优超参数ρ使得期望回报最大化。除此之外,该目标函数还包括两个正则项,第一个正则项为其中使用log函数是为了防止重要权值出现极值情况,w(θ)为重要权重,w(θ)=p(θ|ρ)/p(θ|ρ′),ρ′为样本采样超参数,ρ为当前学习超参数,p(θ|ρ)为策略参数的概率分布函数;第二个正则项为其中N′表示样本个数,Var(w(θi))表示重要权重的方差;λ1,λ2表示正则项参数,在算法中可以通过调整其大小来控制参数搜索范围。所述的引导型学习样本评价函数为:其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。而且,所述的引导型学习样本的选择步骤为:①在已收集样本中,准备K组采样样本分布:②在每个采样样本分布下,利用已收集的路径样本计算评价指标值③选择引导型学习样本:η*:=argmaxkT(ηk)。而且,每个路径样本h的采集过程为:在马尔科夫决策过程的框架下,智能体在当前状态s,根据当前策略函数π(a|s,θ)选择动作a,然后转移到状态s′,并接收到一个立即回报r(s,a,s′)。智能体通过与环境的反复交互收集状态、动作和回报样本,得到路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度,该路径的累积回报表示为R(h)。专利技术的优点和积极效果是:1、本专利技术在目标函数中添加了重要权重方差的正则项通过对重要权重的方差进行控制,从而解决当重要权重较大时,算法稳定性及收敛性降低的问题。2、本专利技术在目标函数中添加另一个关于重要权限之和的正则项使其能够保证至少有一些样本在当前的策略下具有较大的概率密度,并且log函数的使用是为了防止重要权值出现极值情况。从而满足所期望的最优解是能够给回报大的样本分配较大的概率密度,并避免所有重要权重都很小,最优解将所有样本都分配很小的概率密度的情况。3、本专利技术引入引导型学习样本的全新概念,在该类样本的协助下,能够更准确的进行策略搜索,且有助于避免不好的局部最优。4、本专利技术采用强化学习算法中较灵活的离策略学习算法,降低了智能体在策略学习过程中收集的样本数目,通过重复使用样本降低收集样本数,有效解决了样本需求量大的瓶颈问题。附图说明图1为本专利技术的算法流程图。具体实施方式下面结合附图并通过具体实施例对本文档来自技高网
...

【技术保护点】
一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为:Φ(ρ)=JIW(ρ)+λ1logΣi=1N′w(θ′i)+λ2Σi=1N′11+Var(w(θ′i))]]>JIW(ρ)为重要采样技术下的原始目标函数,即寻找最优超参数ρ使得期望回报最大化,该目标函数还包括两个正则项,第一个正则项为w(θ)为重要权重,w(θ)=p(θ|ρ)/p(θ|ρ′),ρ′为样本采样超参数,ρ为当前学习超参数,P(θ|ρ)为策略参数的概率分布函数;第二个正则项为其中N′表示样本个数,Var(w(θi))表示重要权重的方差;λ1,λ2表示正则项参数,在算法中通过调整其大小来控制参数搜索范围。所述的引导型学习样本评价指标为:其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。

【技术特征摘要】
1.一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为: Φ ( ρ ) = J I W ( ρ ) + λ 1 logΣ i = 1 N ′ w ( θ ′ i ) + λ 2 Σ i = 1 N ′ 1 1 + V a r ( w ( ...

【专利技术属性】
技术研发人员:赵婷婷杨巨成赵希陈亚瑞房珊珊
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1