一种基于近似安全动作的自动驾驶强化学习方法技术

技术编号:36190366 阅读:58 留言:0更新日期:2022-12-31 21:04
本发明专利技术公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明专利技术能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。保证策略在训练过程中和部署时的安全性。保证策略在训练过程中和部署时的安全性。

【技术实现步骤摘要】
一种基于近似安全动作的自动驾驶强化学习方法


[0001]本专利技术涉及一种约束强化学习方法,具体涉及一种自动驾驶强化学习方法。

技术介绍

[0002]强化学习通过试错的方法可以有效解决序列决策问题,已经在国际象棋、智能推荐和雅塔丽游戏上展示出了超人类的表现。然而,安全性限制了标准强化学习在现实世界中的应用,例如:在自动驾驶中,如果不考虑安全性,那么智能车为了尽可能快地到达终点,有可能会采取危险动作对周围的人或其它车辆造成损害。尽管可以通过巧妙地设计奖励函数来避免这种损害,但这种方法依赖于复杂的人为设计,并且不具备普适性,难以扩展。
[0003]约束强化学习将安全性作为一种条件约束,并在一个可行域内优化策略,已成为安全强化学习的一种主要形式。约束马尔可夫决策过程(CMDP)作为约束强化学习的一个标准框架,它将代价函数与奖励函数独立开,避免了单个奖励函数中的安全性设计问题。拉格朗日方法是解决CMDP最流行的方法,它通过原对偶优化同时更新策略和拉格朗日乘子,使得策略在最大化长期奖励的同时考虑安全性约束。但这种方法的性能依赖于对初始拉格朗日乘子和对偶梯度更新过程中学习率的选择,通常难以选择到一组合适的超参数。内点策略优化(IPO)和精确惩罚优化(EPO)在此基础上对这种方法进行了改进,通过引入对数障碍函数和线性整流函数作为惩罚项,仅需调节一个超参数即可以有效求解约束优化问题。然而,这些方法只能保证策略在收敛后满足安全性约束,并不能保证策略在训练过程中的安全性。自动驾驶对于安全性极为敏感,即使是在训练过程中,一旦智能车采取危险动作即可能带来灾难性的后果,因此这类方法并不适用于自动驾驶。
[0004]自动驾驶中,除了需要满足策略在部署时的安全性,还需要满足策略在训练过程中的安全性,这个问题被定义为安全探索。现有的安全探索方法需要知道部分先验知识,这些先验知识可能是离线数据也可能是某些模型信息。借助于这些先验知识,安全探索方法可以在训练过程中实现很少的约束违反,甚至实现零约束违反。例如,一些基于模型的安全探索方法通过李雅普诺夫函数或控制障碍函数来引导策略在一个安全集中进行优化,进而实现安全探索。基于安全Q函数的强化学习方法(SQRL)则通过离线数据预训练一个安全评论家,利用安全评论家来拒绝执行不安全的动作。恢复强化学习方法(ReRL)通过离线数据预训练得到一个安全的回退策略,在当前策略输出不安全动作时,通过执行回退策略来保证安全性。SQRL和ReRL需要依赖于一个准确的安全评论家,并且在策略部署时也需要安全评论家的介入来保证安全性。基于优势干预的强化学习方法(SAILR)通过构造新马尔可夫决策过程(MDP)的方式,可以在无干预介入的情况下保证策略部署时的安全性,但在训练过程中它仍然需要一个先验的安全策略。注意到,当先验知识不再可用时,这些方法往往表现出很差的效果。在实际的自动驾驶中,通常难以获取这样的先验知识,因此这类方法的应用场景存在一定的限制。
[0005]另一方面,自动驾驶中收集经验样本具有较高的风险性。因此,安全强化学习除了实现安全探索外,还需要提高样本利用率。约束策略优化(CPO)在信任域策略优化(TRPO)的
基础上考虑了安全性,通过约束优化方法使得策略在每一步更新过程中都稳定地满足安全性约束。基于投影的约束策略优化(PCPO)将策略改进和约束满足分为两个步骤:首先通过TRPO改进策略,然后将其投影回一个可行的安全约束集。策略空间中的一阶约束优化(FOCOP)通过最小化与最优策略间KL散度的方式更新当前策略,实现起来较为简单。然而,由于上述基于CPO的方法均是同策略方法,因此样本利用率低,并不适用于难以收集经验样本的自动驾驶。

技术实现思路

[0006]专利技术目的:针对上述现有技术,提出一种基于近似安全动作的自动驾驶强化学习方法,属于不需要先验知识的异策略安全强化学习方法,可以同时保证策略在部署时和训练过程中的安全性。
[0007]技术方案:一种基于近似安全动作的自动驾驶强化学习方法,首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;
[0008]所述方法包括如下具体步骤:
[0009]步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;
[0010]步骤2:建立目标网络,并初始化网络参数;
[0011]步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;
[0012]步骤4:智能车执行近似安全动作,收集经验样本;
[0013]步骤5:更新价值网络参数;
[0014]步骤6:更新安全指示器参数;
[0015]步骤7:更新策略网络参数;
[0016]步骤8:更新目标网络参数;
[0017]步骤9:重复步骤3至步骤8直到获得最优策略。
[0018]进一步的,所述步骤1中,建立策略网络π
θ
,建立安全指示器C
ω
,建立2个相互独立的价值网络Q
v1
和Q
v2
,其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化。
[0019]进一步的,所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络和其中:和分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν1,ν2,ω,θ)直接赋值给目标网络的参数
[0020]进一步的,所述步骤3中,首先策略网络根据当前状态s输出当前动作π
θ
(s),然后
安全指示器对π
θ
(s)进行安全修正得到近似安全动作,具体修正方式如下:
[0021]首先,计算
[0022]然后,计算a=π
θ
(s)

α
·
λ
*
g
ω
(s);
[0023]其中,λ
*
表示拉格朗日最优乘子,(
·
)
+
表示线性整流操作,δ表示安全阈值,表示安全指示器C
ω
在a'处的导数,a表示安全修正后得到的近似安全动作,a'表示求导处的动作,α表示安全修正系数,

a'
表示在a'处进行求导。
[0024]进一步的,所述步骤4中,首先,智能车在当前状态s下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;所述方法包括如下具体步骤:步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;步骤2:建立目标网络,并初始化网络参数;步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;步骤4:智能车执行近似安全动作,收集经验样本;步骤5:更新价值网络参数;步骤6:更新安全指示器参数;步骤7:更新策略网络参数;步骤8:更新目标网络参数;步骤9:重复步骤3至步骤8直到获得最优策略。2.根据权利要求1所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤1中,建立策略网络π
θ
,建立安全指示器C
ω
,建立2个相互独立的价值网络和其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化。3.根据权利要求2所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络和其中:和分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν1,ν2,ω,θ)直接赋值给目标网络的参数4.根据权利要求3所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤3中,首先策略网络根据当前状态s输出当前动作π
θ
(s),然后安全指示器对π
θ
(s)进行安全修正得到近似安全动作,具体修正方式如下:首先,计算然后,计算a=π
θ
(s)

α
·
λ
*
g
ω
(s);其中,λ
*
表示拉格朗日最优乘子,(
·
)
+
表示线性整流操作,δ表示安全阈值,表示安全指示器C
ω
在a'处的导数,a表示安全修正后...

【专利技术属性】
技术研发人员:王雪松张佳志程玉虎赵忠祥
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1