基于参数探索的近似策略优化方法技术

技术编号:39502637 阅读:15 留言:0更新日期:2023-11-24 11:33
本发明专利技术针对强化学习算法在复杂连续空间中稳定性差和样本利用率低的问题展开研究,提出了基于参数探索的近似策略优化方法,旨在面对采样量有限的复杂高维环境下,通过采用确定性策略减少不必要的随机性,在不增大策略梯度方差的前提条件下通过有效重复使用旧样本稳定提升智能体训练效果

【技术实现步骤摘要】
基于参数探索的近似策略优化方法


[0001]本专利技术属于机器学习领域,主要涉及到强化学习算法,尤其是处理连续状态动作空间任务的策略搜索强化学习算法


技术介绍

[0002]强化学习为机器学习领域的重要学习方法,主要研究智能体如何与未知环境进行交互与训练,获得累积回报最大化的最优决策策略,是最有希望实现人工智能这个目标的研究领域之一,也是智能系统开发者关注的研究热点

[0003]强化学习领域中根据优化对象不同,可分为基于值函数的强化学习算法和策略搜索强化学习算法

基于值函数的方法是通过策略迭代中的值函数间接学习策略,很难处理连续性动作空间的决策问题

策略搜索算法直接对策略进行参数化建模,目标是找到最优策略参数,使其累积回报奖励最大化

此类方法在迭代计算过程中,策略更新是逐渐变化的,具有较强的稳定性,可以很好的处理高维的连续状态动作空间问题,尤其适用于智能控制领域

策略搜索算法中的策略梯度算法实用性强

易于实现,被认为是处理连续空间中复杂决策任务的主流方法,但此类算法使用随机动作策略,存在梯度估计方差大,策略更新不稳定问题

基于参数探索的策略梯度算法提出了动作确定性策略以及在目标参数的先验分布中随机采样策略参数的思想,有效提升了策略搜索算法在复杂环境中的稳定性

然而,强化学习算法面向复杂未知环境时,需要大量的学习样本才能得到稳定的训练效果
。<br/>由于物理系统的特殊性,收集大量的交互学习样本十分困难,需要耗费高额的人力

物力以及时间成本,因此,算法稳定性与样本利用率问题在强化学习实际应用中是瓶颈问题


技术实现思路

[0004]基于现有技术所存在的问题,本专利技术的目的是提供一种基于参数探索的近似策略优化方法,能解决现有强化学习算法面向大规模连续状态动作空间决策问题,所存在的策略更新不稳定,样本利用率低的问题

[0005]本专利技术是通过以下技术方案实现的:
[0006]一种基于参数探索的近似策略优化方法,包括以下步骤:
[0007]步骤1收集样本:基于参数探索的策略梯度算法框架,探索策略参数先验分布,提取策略参数

[0008]步骤2更新策略参数先验分布,智能体根据得到的策略参数与环境交互,通过采用确定性动作策略的方式,得到路径
h
,并存储该路径的累积回报
R(h)。
由于环境具有动态性和不确定性,在迭代更新过程中,使用累积回报的期望值作为衡量策略优劣指标

在此过程中,使用重要性采样技术

基线采样与对称采样技术,有效利用旧样本信息更新目标策略参数分布,提高样本利用率,并在所述基于参数探索的策略梯度算法框架中引入近似策略优化思想,保证梯度估计方差稳定性,其最终目标为获得最优策略参数先验分布

[0009]步骤3根据所得的策略参数先验分布,进行任务测试

本专利技术在大规模

连续状态

动作空间下即智能机器人仿真平台下测试该方法的稳定性,证实该方法在智能控制系统领域的实用性

[0010]由上述本专利技术提供的技术方案可以看出,本专利技术实施例提供的基于参数探索的近似策略优化方法,其有益效果为:
[0011]基于参数探索的近似策略优化方法是将基于参数探索的策略梯度框架与近似优化策略思想相结合的首次尝试,智能体能够更有效地自主学习到最优策略模型,更加符合智能控制系统的期望

利用重要性采样技术和近似策略优化思想,可以有效地重复利用旧样本对策略梯度进行无偏估计,降低重要性权重影响,优化策略模型

该方法具有较强的泛化能力

在高维复杂环境下面对不同的控制任务依然具有良好的性能表现和收敛质量

综上,基于参数探索的近似策略优化算法既解决了高维环境下的训练不稳定问题,又解决了样本利用率低的问题,能够在限制采样量的场景下依然取得出色的效果,在实际应用中具有重要意义

附图说明
[0012]图1为本专利技术实施例提供的基于参数探索的近似策略优化方法流程图

[0013]图2为本专利技术实施例提供的在
Pybullet
仿真平台的双足机器人控制任务下与其他算法对比获得的平均累积回报对比图

具体实施方式
[0014]下面将结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术

[0015]如图1所示,本专利技术实施提供一种基于参数探索的近似策略优化方法

具体地,在基于参数探索的策略梯度算法框架的基础上引入近似策略优化思想,使用重要性采样方法利用旧数据对智能体进行训练,从而保证智能体在高维复杂连续环境空间下,既能够提高样本利用率,又能保持较小的策略梯度估计方差并取得良好的训练学习效果

该方法包括:
[0016]步骤1在收集样本时,使用基于参数探索的策略梯度算法框架,即探索策略参数先验分布,提取策略参数,并通过引入确定性动作策略的方式降低决策过程中不必要的随机扰动性

[0017]在本专利技术的实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程
(MDP)
,马尔科夫决策过程通常用状态

动作

状态转移概率

初始状态概率和奖励函数构成的五元组
(S

A

P

P0,
R)
表示:其中
S
表示状态空间,可以是离散的也可以是连续的状态空间,本专利技术侧重于连续状态空间问题的研究
。A
表示动作空间,可以是离散的也可以是连续的动作空间,本专利技术侧重于连续动作空间问题的研究
。P
表示状态转移概率,表示从当前状态
s
t
,采取的动作
a
t
,转移到下一状态
s
t+1
的概率,即
P(s
t+1
|s
t

a
t
)

P0为智能体的初始状态概率密度函数,
R
表示智能体的累积奖励

马尔可夫决策的动态过程为:在时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于参数探索的近似策略优化方法,其特征在于包括以下步骤:步骤1收集样本:基于参数探索的策略梯度算法框架,探索策略参数先验分布,提取策略参数;步骤2更新策略参数先验分布:智能体根据步骤1得到的策略参数与环境进行交互,通过确定性动作策略得到路径
h
,并存储该路径的累积回报
R(h)
;使用累积回报
R(h)
的期望值作为衡量策略优劣指标,在此过程中,使用重要性采样技术

基线采样与对称采样技术,有效利用旧样本信息更新目标策略参数分布,其最终目标为获得最优策略参数先验分布;步骤3根据所得的策略参数先验分布,进行任务测试
。2.
根据权利要求1所述的基于参数探索的近似策略优化方法,其特征在于:所述步骤2进一步包括:步骤
2.1
在基于参数探索的策略梯度算法框架中引入近似策略优化思想,基于参数探索的近似策略优化方法目标函数为:
J
PPPO
(
ρ
)

E
p(h

θ
|
ρ

)
[min(R(h)
ω
(
θ
)

clip(
ω
(
θ
)
,1‑
ε

1+
ε
)R(h))]
其中表示新策略参数分布和旧策略参数分布的差异,称为重要性权重:步骤
2.2
在更新策略参数先验分布过程中,采用基线采样与对称采样技术,保持梯度稳定,消除误导性的梯度估计值
。3.
...

【专利技术属性】
技术研发人员:赵婷婷杨佳欣
申请(专利权)人:天津科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1