基于参数探索的近似策略优化方法技术

技术编号：39502637 阅读：15 留言：0更新日期：2023-11-24 11:33

本发明专利技术针对强化学习算法在复杂连续空间中稳定性差和样本利用率低的问题展开研究，提出了基于参数探索的近似策略优化方法，旨在面对采样量有限的复杂高维环境下，通过采用确定性策略减少不必要的随机性，在不增大策略梯度方差的前提条件下通过有效重复使用旧样本稳定提升智能体训练效果

全部详细技术资料下载

【技术实现步骤摘要】
基于参数探索的近似策略优化方法

[0001]本专利技术属于机器学习领域，主要涉及到强化学习算法，尤其是处理连续状态动作空间任务的策略搜索强化学习算法
。

技术介绍

[0002]强化学习为机器学习领域的重要学习方法，主要研究智能体如何与未知环境进行交互与训练，获得累积回报最大化的最优决策策略，是最有希望实现人工智能这个目标的研究领域之一，也是智能系统开发者关注的研究热点
。
[0003]强化学习领域中根据优化对象不同，可分为基于值函数的强化学习算法和策略搜索强化学习算法
。
基于值函数的方法是通过策略迭代中的值函数间接学习策略，很难处理连续性动作空间的决策问题
。
策略搜索算法直接对策略进行参数化建模，目标是找到最优策略参数，使其累积回报奖励最大化
。
此类方法在迭代计算过程中，策略更新是逐渐变化的，具有较强的稳定性，可以很好的处理高维的连续状态动作空间问题，尤其适用于智能控制领域
。
策略搜索算法中的策略梯度算法实用性强
、
易于实现，被认为是处理连续空间中复杂决策任务的主流方法，但此类算法使用随机动作策略，存在梯度估计方差大，策略更新不稳定问题
。
基于参数探索的策略梯度算法提出了动作确定性策略以及在目标参数的先验分布中随机采样策略参数的思想，有效提升了策略搜索算法在复杂环境中的稳定性
。
然而，强化学习算法面向复杂未知环境时，需要大量的学习样本才能得到稳定的训练效果
。<...

【技术保护点】

【技术特征摘要】
1.
基于参数探索的近似策略优化方法，其特征在于包括以下步骤：步骤1收集样本：基于参数探索的策略梯度算法框架，探索策略参数先验分布，提取策略参数；步骤2更新策略参数先验分布：智能体根据步骤1得到的策略参数与环境进行交互，通过确定性动作策略得到路径
h
，并存储该路径的累积回报
R(h)
；使用累积回报
R(h)
的期望值作为衡量策略优劣指标，在此过程中，使用重要性采样技术
、
基线采样与对称采样技术，有效利用旧样本信息更新目标策略参数分布，其最终目标为获得最优策略参数先验分布；步骤3根据所得的策略参数先验分布，进行任务测试
。2.
根据权利要求1所述的基于参数探索的近似策略优化方法，其特征在于：所述步骤2进一步包括：步骤
2.1
在基于参数探索的策略梯度算法框架中引入近似策略优化思想，基于参数探索的近似策略优化方法目标函数为：
J
PPPO
(
ρ
)
＝
E
p(h
，
θ
|
ρ
′
)
[min(R(h)
ω
(
θ
)
，
clip(
ω
(
θ
)
，1‑
ε
，
1+
ε
)R(h))]
其中表示新策略参数分布和旧策略参数分布的差异，称为重要性权重：步骤
2.2
在更新策略参数先验分布过程中，采用基线采样与对称采样技术，保持梯度稳定，消除误导性的梯度估计值
。3.
...

【专利技术属性】
技术研发人员：赵婷婷，杨佳欣，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人