【技术实现步骤摘要】
本专利技术属于机器学习领域,主要涉及到强化学习算法,尤其是一种面向连续状态动作空间的策略搜索强化学习算法。
技术介绍
机器学习是人工智能的核心研究领域之一,其研究动机就是为了让计算机系统具有人的学习能力以便实现人工智能。强化学习作为机器学习领域的重要学习方法,在游戏、机器人、调度系统、智能对话系统、存储系统、智能发电量控制、智能交通系统、无人驾驶车及航空航天系统等领域已得到广泛的应用。强化学习是一个连续做出决策的过程,它不需要有先验知识,而是智能体通过不断与环境交互来获得知识,自主的进行动作选择,从而找到一个最优的动作选择策略,使智能体在决策过程中整体的回报期望最优。在国内外已有的研究中,强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计,策略是建立在估计的价值函数基础上。此类策略迭代算法能够有效地解决离散的状态动作空间问题,但是由于价值函数的极度非凸性,难以在每一个时间步骤都通过最大化价值函数来选择动作,因此,此类方法不适用于解决大规模连续动作空间问题。策略搜索方法是强化学习方法的另一类算法,此类算法非常适用于大规模具有连续状态及动作空间的智能系统。然而,传统的策略搜索算法的一大问题便在于策略更新时策略梯度方差过大,使得算法不稳定且收敛慢。为了解决梯度估计方差过大的实质性问题,基于参数探索的策略梯度方法被提出来了,被称为PGPE算法。在申请人的前期工作中已经实践性并理论性地验证了PGPE算法的稳定性。然而,策略搜索算法需要大量的学习样本才能得到准确稳定的策略,即使是PGPE算法也不例外。而收集大量的学习样本则 ...
【技术保护点】
一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为:Φ(ρ)=JIW(ρ)+λ1logΣi=1N′w(θ′i)+λ2Σi=1N′11+Var(w(θ′i))]]>JIW(ρ)为重要采样技术下的原始目标函数,即寻找最优超参数ρ使得期望回报最大化,该目标函数还包括两个正则项,第一个正则项为w(θ)为重要权重,w(θ)=p(θ|ρ)/p(θ|ρ′),ρ′为样本采样超参数,ρ为当前学习超参数,P(θ|ρ)为策略参数的概率分布函数;第二个正则项为其中N′表示样本个数,Var(w(θi))表示重要权重的方差;λ1,λ2表示正则项参数,在算法中通过调整其大小来控制参数搜索范围。所述的引导型学习样本评价指标为:其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。
【技术特征摘要】
1.一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为: Φ ( ρ ) = J I W ( ρ ) + λ 1 logΣ i = 1 N ′ w ( θ ′ i ) + λ 2 Σ i = 1 N ′ 1 1 + V a r ( w ( ...
【专利技术属性】
技术研发人员:赵婷婷,杨巨成,赵希,陈亚瑞,房珊珊,
申请(专利权)人:天津科技大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。