【技术实现步骤摘要】
一种基于近似安全动作的自动驾驶强化学习方法
[0001]本专利技术涉及一种约束强化学习方法,具体涉及一种自动驾驶强化学习方法。
技术介绍
[0002]强化学习通过试错的方法可以有效解决序列决策问题,已经在国际象棋、智能推荐和雅塔丽游戏上展示出了超人类的表现。然而,安全性限制了标准强化学习在现实世界中的应用,例如:在自动驾驶中,如果不考虑安全性,那么智能车为了尽可能快地到达终点,有可能会采取危险动作对周围的人或其它车辆造成损害。尽管可以通过巧妙地设计奖励函数来避免这种损害,但这种方法依赖于复杂的人为设计,并且不具备普适性,难以扩展。
[0003]约束强化学习将安全性作为一种条件约束,并在一个可行域内优化策略,已成为安全强化学习的一种主要形式。约束马尔可夫决策过程(CMDP)作为约束强化学习的一个标准框架,它将代价函数与奖励函数独立开,避免了单个奖励函数中的安全性设计问题。拉格朗日方法是解决CMDP最流行的方法,它通过原对偶优化同时更新策略和拉格朗日乘子,使得策略在最大化长期奖励的同时考虑安全性约束。但这种方法的性能依赖于对初始拉格朗日乘子和对偶梯度更新过程中学习率的选择,通常难以选择到一组合适的超参数。内点策略优化(IPO)和精确惩罚优化(EPO)在此基础上对这种方法进行了改进,通过引入对数障碍函数和线性整流函数作为惩罚项,仅需调节一个超参数即可以有效求解约束优化问题。然而,这些方法只能保证策略在收敛后满足安全性约束,并不能保证策略在训练过程中的安全性。自动驾驶对于安全性极为敏感,即使是在训练过程中,一旦智能车 ...
【技术保护点】
【技术特征摘要】
1.一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;所述方法包括如下具体步骤:步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;步骤2:建立目标网络,并初始化网络参数;步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;步骤4:智能车执行近似安全动作,收集经验样本;步骤5:更新价值网络参数;步骤6:更新安全指示器参数;步骤7:更新策略网络参数;步骤8:更新目标网络参数;步骤9:重复步骤3至步骤8直到获得最优策略。2.根据权利要求1所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤1中,建立策略网络π
θ
,建立安全指示器C
ω
,建立2个相互独立的价值网络和其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化。3.根据权利要求2所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络和其中:和分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν1,ν2,ω,θ)直接赋值给目标网络的参数4.根据权利要求3所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤3中,首先策略网络根据当前状态s输出当前动作π
θ
(s),然后安全指示器对π
θ
(s)进行安全修正得到近似安全动作,具体修正方式如下:首先,计算然后,计算a=π
θ
(s)
‑
α
·
λ
*
g
ω
(s);其中,λ
*
表示拉格朗日最优乘子,(
·
)
+
表示线性整流操作,δ表示安全阈值,表示安全指示器C
ω
在a'处的导数,a表示安全修正后...
【专利技术属性】
技术研发人员:王雪松,张佳志,程玉虎,赵忠祥,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。