一种基于分层强化学习的自动驾驶车辆换道决策控制方法技术

技术编号:32233660 阅读:20 留言:0更新日期:2022-02-09 17:38
一种基于分层强化学习的自动驾驶车辆换道决策控制方法,属于自动驾驶控制技术领域。解决了现有自动驾驶过程中存在安全性差/效率低的问题。本发明专利技术利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰或换道动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得换道或跟驰加速度信息,当换道时,采用5次多项式曲线生成一条参考换道轨迹。本发明专利技术适用于自动驾驶换道决策及控制。本发明专利技术适用于自动驾驶换道决策及控制。本发明专利技术适用于自动驾驶换道决策及控制。

【技术实现步骤摘要】
一种基于分层强化学习的自动驾驶车辆换道决策控制方法


[0001]本专利技术属于自动驾驶控制


技术介绍

[0002]一般情况下,自动驾驶的驾驶策略都是模块化的组成。大致分为4个层次:(1)战略规划层:一般负责从起点到终点的全局路径层面的规划。这一部分涉及到最短路径、加权最短路径、GIS等一些相关知识,目前的研究和实现方法均已经比较成熟;(2)战术层决策:一般负责在实际驾驶过程中,局部范围内的行为决策,例如跟驶、换道、超车、加速、减速等;(3)局部规划层:依据战术决策层的动作意图,该层负责生成一条安全、且符合交通法规的轨迹(trajectory);(4)车辆控制层:这一层主要是根据生成的轨迹,一般采用最优控制的方法,通过对车辆油门、刹车、方向盘的控制,实现对生成轨迹的最小偏差跟踪。
[0003]换道决策和换道轨迹生成分别是自动驾驶战术决策层和局部规划层中的关键内容,是很多驾驶场景下的基本决策行为,其性能水平的高低很大程度上决定了自动驾驶决策、规划与控制的安全、效率与好坏。传统的做法主要包括:(1)换道决策采用基于规则(例如有限状态机)的方式来实现,换道轨迹生成采用最优控制理论来生成;(2)换道决策与执行绑定在一起,采用端到端(end

to

end)的方式进行学习,直接从状态输入,输出换道车辆控制动作。第(1)种方式,由于本质上是基于规则的做法,因此很难泛化到未定义驾驶场景下,而且定义复杂场景下的规则集十分困难,甚至无法实现;第(2)种方式尽管在决策上非常高效,同时也能够很好泛化到未定义场景下,但是这种纯粹基于学习的方式,无法完全保证换道的安全性。此外,自动驾驶策略本质上是“分层的”,也就是先产生驾驶意图,然后根据意图生成轨迹和控制车辆,如果直接将决策与控制绑定在一起,很难建立高效的决策与控制方法。

技术实现思路

[0004]本专利技术目的是为了解决现有自动驾驶过程中存在安全性差/效率低的问题,提供了一种基于分层强化学习的自动驾驶车辆换道决策控制方法。
[0005]本专利技术所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,该方法包括:
[0006]步骤一、利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;
[0007]步骤二、当Q估值最大的动作为换道动作时,执行步骤三,当Q估值最大的动作为继续跟驰时,利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得跟驰加速度,完成一次自动驾驶决策及控制;
[0008]步骤三、利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置
信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型;获得换道动作的加速度信息;
[0009]步骤四、利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹;
[0010]步骤五、采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作,完成一次自动驾驶换道决策及控制。
[0011]进一步地,本专利技术中,步骤一、步骤二和步骤三中所述的自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置和相对速度信息为:
[0012]目标自动驾驶车辆与当前车道前车相对位置:Δx
leader
=|x
ego

x
leader
|;其中,x
ego
为目标自动驾驶车辆沿车道方向的位置坐标,x
leader
为当前车道目标自动驾驶车辆前车沿车道方向的位置坐标;
[0013]目标自动驾驶车辆与目标车道前车相对位置:Δx
target
=|x
ego

x
target
|;其中,x
target
为目标车道前车沿车道方向的位置坐标;
[0014]目标自动驾驶车辆与目标车道后车相对位置:Δx
follow
=|x
ego

x
follow
|;其中,x
follow
为目标车道后车沿车道方向的位置坐标;
[0015]目标自动驾驶车辆与目标车道前车相对速度:Δv
ego
=|v
ego

v
leader
|;其中,v
ego
为目标自动驾驶车辆的速度,v
leader
为当前车道目标自动驾驶车辆前车的速度;
[0016]目标自动驾驶车辆与目标车道前车相对速度:Δv
target
=|v
ego

v
target
|;其中,v
target
为目标车道前车沿车道方向的速度;
[0017]目标自动驾驶车辆速度:v
ego

[0018]目标自动驾驶车辆加速度:a
ego

[0019]进一步地,本专利技术中,步骤一中,换道安全奖励函数为:
[0020][0021]其中,w1,w2,w3,w4分别为目标自动驾驶车辆与当前车道前车相对位置的权重系数、目标自动驾驶车辆与目标车道前车相对速度的权重系数,目标自动驾驶车辆与目标车道前车相对位置和目标自动驾驶车辆与目标车道前车相对速度的权重系数。
[0022]进一步地,本专利技术中,步骤一中,带有3个隐含层的决策神经网络中,每个隐含层包括100个神经元。
[0023]进一步地,本专利技术中,步骤二中,建立深度Q学习的加速度决策模型的具体方法为:
[0024]以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
[0025]环境状态:s=(Δx
leader
,Δx
target
,Δx
follow
,Δv
ego
,Δv
target
,v
ego
,a
ego
)
[0026]其中,a代表需要决策的纵向加速度;
[0027]跟驰奖励函数:
[0028]R
dis


w
dis
.|x
leader

x
ego
|
ꢀꢀ
公式二
[0029]R
v
=w
v
.|v
leader

v
ego
|
ꢀꢀ
公式三
[0030]R
c
=R
dis
+R
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,该方法包括:步骤一、利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;步骤二、当Q估值最大的动作为换道动作时,执行步骤三,当Q估值最大的动作为继续跟驰时,利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得跟驰加速度,完成一次自动驾驶决策及控制;步骤三、利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型;获得换道动作的加速度信息;步骤四、利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹;步骤五、采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作,完成一次自动驾驶换道决策及控制。2.根据权利要求1所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤一、步骤二和步骤三中所述的自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置和相对速度信息为:目标自动驾驶车辆与当前车道前车相对位置:Δx
leader
=|x
ego

x
leader
|;其中,x
ego
为目标自动驾驶车辆沿车道方向的位置坐标,x
leader
为当前车道目标自动驾驶车辆前车沿车道方向的位置坐标;目标自动驾驶车辆与目标车道前车相对位置:Δx
target
=|x
ego

x
target
|;其中,x
target
为目标车道前车沿车道方向的位置坐标;目标自动驾驶车辆与目标车道后车相对位置:Δx
follow
=|x
ego

x
follow
|;其中,x
follow
为目标车道后车沿车道方向的位置坐标;目标自动驾驶车辆与目标车道前车相对速度:Δv
ego
=|v
ego

v
leader
|;其中,v
ego
为目标自动驾驶车辆的速度,v
leader
为当前车道目标自动驾驶车辆前车的速度;目标自动驾驶车辆与目标车道前车相对速度:Δv
target
=|v
ego

v
target
|;其中,v
target
为目标车道前车沿车道方向的速度;目标自动驾驶车辆速度:v
ego
;目标自动驾驶车辆加速度:a
ego
。3.根据权利要求2所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤一中,换道安全奖励函数为:其中,w1,w2,w3,w4分别为目标自动驾驶车辆与当前车道前车相对位置的权重系数、目标自动驾驶车辆与目标车道前车相对速度的权重系数,目标自动驾驶车辆与目标车道前车相对位置和目标自动驾驶车辆与目标车道前车相对速度的权重系数。
4.根据权利要求2或3所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤一中,带有3个隐含层的决策神经网络中,每个隐含层包括100个神经元。5.根据权利要求2或3所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤二中,建立深度Q学习的加速度决策模型的具体方法为:以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:环境状态:s=(Δx
leader
,Δx
target
,Δx
follow
,Δv
ego
,Δv
target
,v
ego
,a
ego
)其中,a代表需要决策的纵向加速度;跟驰奖励函数:R
dis


w
dis
·
|x
leader

x
ego
|
ꢀꢀꢀꢀ
公式二R
v


w
v
·
|v
leadeer

v
ego
|
ꢀꢀꢀꢀ
公式三R
c
=R
dis
+R
v
ꢀꢀꢀꢀ
公式四其中,R
dis
,R
v
分别代表跟驰状态与距离相关的奖励函数和速度相关的奖励函数;w
dis
和w
v
分别为跟驰状态距离奖励和速度奖励对应的权重;R
c
代表跟驰状态与距离和速度相关的综合奖励;加速度决策模型最终的Q估值:Q(s,a)=A(s).(B(s...

【专利技术属性】
技术研发人员:崔建勋慈玉生要甲姜慧夫曲明成
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1