一种基于同策略正则化策略评估的离线强化学习方法技术

技术编号：40988445 阅读：2 留言：0更新日期：2024-04-18 21:31

本发明专利技术公开了一种基于同策略正则化策略评估的离线强化学习方法，首先根据同策略强化学习的需求，采样状态‑动作‑奖励‑状态‑动作形式，即SARSA‑style的经验转换数据作为训练样本；然后在同策略正则化策略评估过程中，利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项，来共同正则化异策略Q学习形式，即QL‑style的最优Q函数；最后在策略提升的配合下，不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明专利技术在不访问各类估计行为策略和行为Q函数的情况下，能够稳定且自然地将同策略的保守性引入到学习Q函数，并将学习Q函数可控地限制在其真实值附近。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及离线强化学习，特别涉及一种基于同策略正则化策略评估的离线强化学习方法。

技术介绍

1、强化学习在玩游戏、机器人控制、物流运输、非线性动态系统控制等拥有高保真模拟器的序列决策领域取得了巨大的成功。但在许多现实世界的隐私/安全敏感场景中，与环境在线试错交互成本昂贵且危险，这在很大程度上限制了强化学习在模拟器之外的应用。相对地，数据驱动的离线强化学习旨在仅从固定静态数据集学习高性能的任务解决策略，删除了与环境进一步交互获得纠正反馈的设定。这种学习范式使得离线强化学习在没有模拟器的情况下，就可以扩展到医疗保健、自动驾驶、工业过程控制、电力系统优化等许多有足够先前记录数据可用的现实场景，有效规避了标准在线强化学习耗时且样本效率低的数据收集过程以及不成熟策略探索相关的安全风险。

2、但是，完全数据驱动的离线强化学习也面临着新的挑战。由于行为策略下有限训练数据与学习策略部署所遇到的数据之间的分布偏移，策略评估会在数据集中未见过(分布外)动作上产生相当大的外推误差(即高估q函数与它的真实q函数之差)。更糟糕的是，外推误差还会随着自举而不断放大，在贪婪策略提升过程中驱使学习策略朝向分布外动作并产生奔溃行为。上述现象也被称为死亡三角(deadly-traid)，即自举、非线性函数近似和异策略学习三者之间消极干扰所导致的训练不稳定性。为此，设计离线强化学习的核心是平衡两个相互矛盾的目标：最大化探索奖励(即通过强化学习信号超越行为策略)和保持学习策略与行为策略相近(即通过约束信号稳定q函数学习)。

3、为应对上述挑

技术实现思路

1、专利技术目的：针对现有技术中存在的问题与不足，本专利技术提供一种基于同策略正则化策略评估的离线强化学习方法，在不访问各类估计行为策略和行为q函数的情况下，通过本专利技术的同策略正则化策略评估能够稳定且自然地将同策略的保守性引入到学习q函数，并将学习q函数可控地限制在其稳定空间，即其真实值附近。

2、技术方案：一种基于同策略正则化策略评估的离线强化学习方法，首先根据同策略强化学习的需求，采样sarsa-style的经验转换数据作为训练样本；然后在同策略正则化策略评估过程中，利用sarsa-style自举的同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项，来共同正则化异策ql-style的最优q函数；最后在策略提升的配合下，不断地从稳定估计的学习最优q函数快速提取鲁棒的策略，直至学习到满足现实需求的高性能任务解决策略。

3、所述方法包括如下具体步骤：

4、步骤1：提供离线训练数据集；

5、步骤2：利用神经网络参数化建立学习q函数网络、学习策略网络以及它们相对应的目标网络，并初始化网络参数；

6、步骤3：从离线数据集采样sarsa-style需要的小批量经验样本；

7、步骤4：在同策略正则化策略评估阶段，利用同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项来辅助设计学习q函数网络的损失函数，利用所述小批量经验样本，通过梯度下降法以最小化损失函数的方式更新学习q函数网络参数；

8、步骤5：在策略提升阶段，借助行为克隆项辅助设计学习策略网络的损失函数，同样利用所述小批量经验样本，通过梯度下降法以最小化损失函数的方式更新学习策略网络参数；

9、步骤6：通过polyak平均的方式更新学习q函数网络和学习策略网络相对应的目标网络参数；

10、步骤7：重复步骤3至步骤6，不断更新学习q函数网络和学习策略网络的参数，得到同策略正则化异策略q学习形式的最优q函数，通过所述最优q函数学习到能够满足智能体需求的鲁棒且高性能任务解决策略。

11、进一步的，在所述步骤1中，离线训练数据集由任意未知策略πβ收集，包含n条完整的经验转换数据，强化学习智能体与环境交互时，首先从环境观测到当前状态s，执行策略πβ(s)获得动作a以及即时奖励r，同时根据标准状态转换概率分布tm(·|s,a)转换到下一时刻状态s′，此时智能体根据观测到的状态s′，再次执行策略πβ(s)获得动作a′，这里的a′就是同策略动作。

12、进一步的，在所述步骤2中，利用神经网络参数化建立2个独立的学习q函数网络和学习策略网络其中，θ1、θ2和分别表示2个学习q函数网络和学习策略网络的参数；所有网络均由含4个隐藏层且神经元数为256、激活函数为relu的多层感知机构成；其中学习q函数网络的输入维度取决于状态维度和动作维度之和，输出维度取决于动作维度；学习策略网络的输入维度取决于状态维度，输出维度为1；所有网络参数的初始化方式为：随机初始化；

13、利用神经网络分别建立2个独立的学习q函数网络和学习策略网络相对应的目标网络其中：和分别表示2个学习q函数网络和学习策略网络相对应的目标网络的参数；目标网络结构与相对应的原网络结构保持一致；目标网络参数的初始化方式为：将原网络的初始参数直接赋值给相对应的目标网络的参数

14、进一步的，在所述步骤3中，从离线数据集中随机采样sarsa-style需要的小批量经验样本

15、进一步的，在所述步骤4中，通过分析异策略和同策略强化学习的差异：异策略ql-style学习最优q函数，即目标策略采用学习策略选取maxa′q(s′,a′)的动作仅考虑当前会不会获取最大奖励，探索性较强、策略更激进。相对地，同策略sarsa-style学习q函数，即目标策略沿用既定的行为策略选取q(s′,a′)的动作a′～πβ(s′)，对周围负奖励动作敏感，探索性较弱、策略更保守。因此，在同策略正则化策略评估阶段，利用同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项来辅助设计如下的2个学习q函数网络损失函数：

16、

17、

18、其中，是设计的同策略正则化经验贝尔曼算子，注意经验状态转换概率分布其状态采样误差以大于1-δ的概率满足是依赖tm(s′|s,a)的方差聚焦特性的常数，表示数据集中所有状态动作对的计数；表示数学期望，γ表示折扣因子，表示同策略值函数正则化系本文档来自技高网...

【技术保护点】

1.一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，首先根据同策略强化学习的需求，采样状态-动作-奖励-状态-动作形式，即SARSA-style的经验转换数据作为训练样本；

2.根据权利要求1所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在步骤1中，所述离线训练数据集由任意未知策略πβ收集，包含n条完整的经验转换数据，强化学习智能体与环境交互时，首先从环境观测到当前状态s，执行策略πβ(s)获得动作a以及即时奖励r，同时根据标准状态转换概率分布TM(·|s,a)转换到下一时刻状态s′，此时智能体根据观测到的状态s′，再次执行策略πβ(s)获得动作a′，这里的a′就是同策略动作。

4.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤2中，利用神经网络参数化建立2个独立的学习Q函数网络和学习策略网络其中，θ1、θ2和分别表示2个学习Q函数网络和学习策略网络的参数；学习Q函数网络和

5.根据权利要求3所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤3中，从离线数据集中随机采样SARSA-style小批量经验样本

6.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤4中，在同策略正则化策略评估阶段，利用同策略动作构建保守的近似同策略Q函数和同-异策略动作惩罚项来辅助设计如下的2个学习Q函数网络损失函数：

7.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤5中，在策略提升阶段，借助行为克隆项的辅助设计如下的学习策略网络损失函数：

8.根据权利要求4所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤6中，2个学习Q函数网络和学习策略网络相对应的目标网络参数均采用Polyak平均方式更新，将计算的分别赋值给其中，v表示目标网络更新率。

9.根据权利要求8所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，v等于0.005。

...

【技术特征摘要】

1.一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，首先根据同策略强化学习的需求，采样状态-动作-奖励-状态-动作形式，即sarsa-style的经验转换数据作为训练样本；

2.根据权利要求1所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在步骤1中，所述离线训练数据集由任意未知策略πβ收集，包含n条完整的经验转换数据，强化学习智能体与环境交互时，首先从环境观测到当前状态s，执行策略πβ(s)获得动作a以及即时奖励r，同时根据标准状态转换概率分布tm(·|s,a)转换到下一时刻状态s′，此时智能体根据观测到的状态s′，再次执行策略πβ(s)获得动作a′，这里的a′就是同策略动作。

4.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤2中，利用神经网络参数化建立2个独立的学习q函数网络和学习策略网络其中，θ1、θ2和分别表示2个学习q函数网络和学习策略网络的参数；学习q函数网络和学习策略网络均由含4个隐藏层且神经元数为256、激活函数为relu的多层感知机构成；其中学习q函数网络的输入...

【专利技术属性】
技术研发人员：程玉虎，曹硕，王雪松，李会军，赵忠祥，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人