安全强化学习方法和装置以及智能体和存储介质制造方法及图纸

技术编号:37395770 阅读:32 留言:0更新日期:2023-04-27 07:33
本公开提出一种安全强化学习方法、安全强化学习装置、智能体和存储介质,涉及计算机领域。本公开实施例将安全强化学习任务解耦为基线策略学习任务以及安全策略校正任务;基于所述基线策略学习任务,获得基线策略;基于所述安全策略校正任务,通过行为克隆模仿所述基线策略,学习满足安全约束且最接近所述基线策略的安全策略;输出所述安全策略。从而,通过将安全强化学习解耦为基线策略/安全策略的双代理学习,在基线策略的基础上进行安全性微调即可得到安全策略,降低了寻找接近最优安全策略的学习难度,进而提高样本效率,有利于复杂任务的学习。的学习。的学习。

【技术实现步骤摘要】
安全强化学习方法和装置以及智能体和存储介质


[0001]本公开涉及计算机领域,尤其涉及机器人控制领域,特别涉及一种安全强化学习方法、安全强化学习装置、智能体和存储介质。

技术介绍

[0002]强化学习(Reinforcement Learning,RL)是一种机器学习,其中智能体通过执行动作和查看反馈来学习在环境中采取最佳动作的策略。强化学习的目标是,智能体自动寻找在连续时间序列里的最优策略,而最优策略通常指最大化累积奖励。但是,应用基于该目标学习到的策略执行动作,很可能会对周围环境造成意想不到的副作用。
[0003]安全强化学习(Safe Reinforcement Learning)可以改善上述问题。安全强化学习的目标是在满足所有给定安全约束的前提下最大化累积奖励。即,根据任务需求定义安全约束,在一定限制条件下建模和求解强化学习问题。
[0004]然而,安全强化学习的难点在于学习任务本身就是困难的,需要大量探索和其他技巧,但是优化问题中又要考虑安全约束,导致优化方向被限制在较小范围,不利于复杂任务的学习。
专利技术内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安全强化学习方法,其特征在于,包括:将安全强化学习任务解耦为基线策略学习任务以及安全策略校正任务;基于所述基线策略学习任务,获得基线策略;基于所述安全策略校正任务,通过行为克隆模仿所述基线策略,学习满足安全约束且最接近所述基线策略的安全策略;输出所述安全策略。2.根据权利要求1所述的方法,其特征在于,学习满足所述安全约束且最接近所述基线策略的安全策略包括:通过拉格朗日乘子关联原目标函数与安全约束条件函数,以构建对偶目标函数,其中,所述原目标函数为安全策略与基线策略之间的距离信息最小的函数,所述安全约束条件函数为累积安全指标值的期望大于或等于安全阈值的函数;针对所述对偶目标函数,利用梯度算法,更新安全策略的参数。3.根据权利要求2所述的方法,其特征在于,学习满足所述安全约束且最接近所述基线策略的安全策略还包括:针对所述对偶目标函数,利用梯度算法,更新拉格朗日乘子。4.根据权利要求2所述的方法,其特征在于,安全策略与基线策略之间的距离信息的计算方法包括:根据训练样本的每个时刻的状态,利用安全策略,估计训练样本的每个时刻的动作;根据训练样本的每个时刻的状态,利用基线策略,估计训练样本的每个时刻的动作;计算安全策略估计的训练样本的每个时刻的动作与基线策略估计的训练样本的每个时刻的动作之间的距离信息的期望。5.根据权利要求2所述的方法,其特征在于,累积安全指标值的期望的计算方法包括:根据训练样本的每个时刻的状态,利用安全策略,估计训练样本的每个时刻的动作;根据训练样本的每个时刻的状态、动作,利用累积安全指标值的状态与动作的值函数,计算累积安全指标值的期望。6.根据权利要求2所述的方法,其特征在于,学习满足所述安全约束且最接近所述基线策略的安全策略还包括:设置用于评估所述安全策略的一个或多个安全价值网络,以及,所述安全策略的目标网络和每个安全价值网络的目标网络;根据训练样本的当前时刻的安全指标值、下一时刻的状态,利用安全策略的目标网络和每个安全价值网络的目标网络,计算第一安全策略评估值;根据训练样本的当前时刻的状态、动作,利用每个安全价值网络,计算第二安全策略评估值;根据第一安全策略评估值与第二安全策略评估值之间的距离信息,更新安全价值网络的参数。7.根据权利要求6所述的方法,其特征在于,计算第一安全策略评估值包括:根据训练样本的下一时刻的状态,利用安全策略的目标网络,估计训练样本的下一时刻的动作;根据训练样本的下一时刻的状态、动作,利用每个安全价值网络的目标网络,计算目标
安全策略评估值;根据目标安全策略评估值、训练样本的当前时刻的安全指标值,计算第一安全策略评估值。8.根据权利要求6所述的方法,其特征在于,学习满足所述安全约束且最接近所述基线策略的安全策略还包括:根据当前迭代轮次的安全策略的参数和前一迭代轮次的安全策略的目标网络的参数,更新当前迭代轮次的安全策略的目标网络的参数;或者,根据当前迭代轮次的安全价值网络的参数和前一迭代轮次的安全价值网络的目标网络的参数,更新当前迭代轮次的安全价值网络的目标网络的参数。9.根据权利要求1所述的方法,其特征在于,基于所述基线策略学习任务,获得基线策略包括:载入固定的基线策略,所述固定的基线策略是预先基于学习获得的基线策略或者非基于学习的控制策略;或者,基于学习获得基线策略。10.根据权利要求9所述的方法,其特征在于,基于学习获得基线策略包括:根据训练样本的每个时刻的状态,利用基线策略,估计训练样本的每个时刻的动作;根据训练样本的每个时刻的状态、动作,利用累积奖励的状态与动作的值函数,计算累积奖励的最大期望;针对累积奖励的最大期望,利用梯度算法,更新基线策略的参数。11.根据权利要求10所述的方法,其特征在于,基于学习获得基线策略还包括:设置用于评估所述基线策略的一个或多个奖励价值网络,以及,基线策略的目标网络和每个奖励价值网络的目标网络;根据训练样本的当前时刻的奖励、下一时刻的状态,利用基线策略的目标网络和每个奖励价...

【专利技术属性】
技术研发人员:沈力张麟睿陶大程
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1