包含策略约束及不确定估计的有模型离线强化学习训练方法技术

技术编号：38725321 阅读：10 留言：0更新日期：2023-09-08 23:18

本发明专利技术提供一种包含策略约束及不确定估计的有模型离线强化学习训练方法。首先进行动力学模型更新：设定集合成员数目，模型前向预测次数并初始化模型集合、策略网络、值函数网络；从静态数据集随机采样静态数据并根据其更新模型，重复这一步骤直到模型收敛。其次进行策略更新：对采样的静态数据通过模型进行多次预测，得到预测数据和不确定性估计并对预测奖励减去不确定性得到动态数据；将动态数据放入经验池中并从静态数据集和经验池中采样静态数据和动态数据；将动态数据中的状态输入策略网络和模型，得到下一状态的预测；通过静态数据，动态数据及下一状态的预测更新策略网络和值函数网络，重复上述策略更新步骤直到策略网络收敛。络收敛。络收敛。

全部详细技术资料下载

【技术实现步骤摘要】
包含策略约束及不确定估计的有模型离线强化学习训练方法

[0001]本专利技术涉及人工智能领域，具体涉及一种包含策略约束及不确定估计的有模型离线强化学习训练方法。

技术介绍

[0002]强化学习在诸多领域取得了巨大进步。一般来说，强化学习需要与环境进行交互。在某些情况下，例如自动驾驶、医疗等应用场景中，这些交互的代价可能很高甚至被禁止进行交互。出于这个原因，离线强化学习成为一个有前途的方向，它通过静态数据集进行学习并且不与环境交互。有模型离线强化学习从静态数据集中学习环境的动力学模型，这有助于提高数据利用率，能够取得更好的表现。
[0003]现有的有模型离线的强化学习算法面临分布偏移和模型偏差的影响。离线强化学习的训练完全依赖于静态数据集，并期望学习到能够在数据集支持之外执行的策略，这导致静态训练数据和真实环境中策略轨迹之间的分布偏移。分布偏移会导致贝尔曼算子对Q函数的高估，从而倾向于选择分布外动作。模型偏差则是有模型的强化学习中的一个固有问题，它将会导致策略被指向未知区域并最终打乱策略学习。而策略和静态数据集之间的状态不匹配是离线强化学习中的常见现象，这会导致策略在真实环境中遇到分布外状态，并会增加模型偏差的不利影响。因此，解决Q函数的高估问题和减少状态不匹配可以降低分布偏移与模型偏差对有模型离线强化学习算法的负面影响。

技术实现思路

[0004]为克服现有技术的不足，本专利技术提供一种包含策略约束及不确定估计的有模型离线强化学习训练方法，通过对奖励函数减去不确定性解决Q函数的高估问题，并通过

【技术保护点】

【技术特征摘要】
1.一种包含策略约束及不确定估计的有模型离线强化学习训练方法，其特征在于，包括如下步骤：步骤一、更新环境的动力学模型，包括：步骤S1：设定集合成员数目N，动力学模型前向预测次数f，保守估计权重h；步骤S2：初始化环境的动力学模型集合M，M＝{M1,...M
i
}，其中M
i
，i∈{1,2,...N}代表一个动力学模型，强化学习策略网络π，值函数网络Q，静态经验池D
env
，动态经验池D
model
；步骤S3：将存储格式为四元组{(s
t
,a
t
,r
t
,s
t+1
)}的静态数据集的数据放入静态经验池D
env
中，其中s
t
代表当前时刻状态，a
t
代表当前时刻动作，r
t
代表当前时刻奖励，s
t+1
代表下一时刻状态；步骤S4：从静态经验池D
env
中随机采样得到静态数据d
env
，静态数据d
env
以四元组{(s
t
,a
t
,r
t
,s
t+1
)}形式表示；步骤S5：根据静态数据d
env
更新动力学模型集合M；重复步骤S4和步骤S5直到动力学模型集合M收敛；步骤二、更新强化学习策略网络，包括：步骤S6：从静态经验池D
env
中采样静态数据d
env
，并通过动力学模型集合M和策略网络π预测未来f步的数据，得到预测数据d
M
并得到不确定性估计ν；步骤S7：对预测数据d
M
中的奖励r
t
减去不确定性估计ν得到动态数据d
model
，并将其放入动态经验池D
model
中；步骤S8：从静态经验池D
env
和动态经验池D
model
中采样相同数目的静态数据d
env
和动态数据d
model
；步骤S9：将从动态经验池D
model
中采样动态数据d
model
中的状态输入策略网络π，得到动作并因此得到状态动作对步骤S10：将得到的状态动作对输入动力学模型集合M，得到下一状态的预测步骤S11：通过采样得到的静态数据d
env
和动态数据d
model
以及下一状态的预测来更新策略网络π；步骤S12：通过采样得到的静态数据d
env
和动态数据d
model
更新值函数网络Q；重复步骤S6
‑
步骤S12直至策略网络π收敛。2.根据权利要求1所述的一种包含策略约束及不确定估计的有模型离线强化学习训练方法，其特征在于，所述步骤S5具体包括：步骤S5a：将静态数据d
env
中的s
t
和a
t
表示为状态动作对(s
t
,a
t
)；步骤S5b：将状态动作对(s
t
,a
t
)输入动力学模型集合M中得到代表当前时刻奖励r
t
和下一时刻状态s
t+1
的高斯分布的均值与方差的集合其中代表了动力学模型M
i
,i∈{1,2,...N}输出的结果，代表M
i
得到的r
t
的均值，代表M
i
得到的r
t
的方差，代表M
i
得到的s
t+1
的均值，代表M
i
得到的s
t+1
的方差；步骤S5c：对于集合M中的每一个动力学模型M
i
,i∈{1,2,...N}，通过最大似然的方式进
行更新，如式(1)所示，其中为模型更新时的损失函数：3.根据权利要求2所述的一种包含策略约束及不确定估计的有模型离线强化学习训练方法，其特征在于，所述步骤S6具体包...

【专利技术属性】
技术研发人员：朱进，杜春晖，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人