当前位置: 首页 > 专利查询>崔建勋专利>正文

一种基于多维奖励架构深度Q学习的自动驾驶决策方法技术

技术编号:30557555 阅读:21 留言:0更新日期:2021-10-30 13:39
一种基于多维奖励架构深度Q学习的自动驾驶决策方法,属于自动驾驶技术领域。解决了现有驾驶决策方法存在多维度性能无法同时达到最优的问题。它采用视觉传感器和LIDAR传感器实时采集自动驾驶车辆所处的环境信息;获取图像信息和/或点云信息;将图像信息和/或点云信息输入至多奖励架构的深度Q值网络,获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;对三个维度下的驾驶决策的奖励估值求和,获得总的驾驶策略奖励估值;采用ε

【技术实现步骤摘要】
一种基于多维奖励架构深度Q学习的自动驾驶决策方法


[0001]本专利技术属于自动驾驶


技术介绍

[0002]自动驾驶决策是自动驾驶整体技术环节中至关重要的一环,它以状态感知为输入,以特定交通场景下的交通决策为输出,服务后续的自动驾驶车辆运动规划及车辆控制,它的智能化水平,直接决定了自动驾驶自动化程度的高低与质量。
[0003]传统上,自动驾驶决策一般有两种实现方式,分别是基于规则的方法和基于学习的方法。基于规则的方法常常通过人为的枚举出各种可能的交通驾驶状态,然后给出状态下对应的驾驶决策,作为规则集存储起来,当自动驾驶车辆遇到规则集中某条驾驶状态时,触发响应的决策行为。
[0004]这种方式最大的好处是安全、可控,一切都在人为的设计和理解范围内,但最大的问题是枚举所有自动驾驶可能遇到的交通情况是不现实的,对于一些规则集中没有定义的状态,自动驾驶车辆将不知如何决策,也就是无法泛化的问题。
[0005]基于学习的方法正好可以克服基于规则方法难以泛化的问题,它可以通过一些情景的状态和动作样本,训练决策模型,从而在遇到未知情景时同样可以生成较好的决策动作。基于学习的方法中,比较受到重视和具有突出潜力的方法是基于强化学习的决策方式。强化学习允许自动驾驶车辆与环境不断互动,在自主探索的情况下,不断提升自身的决策水平。但自动驾驶决策是一种复杂的决策行为,它所考虑的决策目标维度很多,例如包括安全性、舒适性、高效性、经济性等,而以往的基于强化学习的自动驾驶决策方法通常采用一个累积收益估计函数对多个维度的综合收益进行估计。但是,由于多个维度的综合收益同时考虑并无法实现保证每个维度均达到最好的收益。

技术实现思路

[0006]本专利技术目的是为了解决现有驾驶决策方法存在多维度性能无法同时达到最优的问题,提出了一种基于多维奖励架构深度Q学习的自动驾驶决策方法。
[0007]本专利技术所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,包括:
[0008]步骤一、采用视觉传感器和LIDAR传感器实时采集自动驾驶车辆所处的环境信息;获取图像信息和/或点云信息;
[0009]步骤二、将图像信息和/或点云信息输入至多奖励架构的深度Q值网络,获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;
[0010]步骤三、对三个维度下的驾驶决策的奖励估值求和,获得总的驾驶策略奖励估值;
[0011]步骤四、采用ε

贪心算法的方式对所述驾驶策略奖励估值进行解析,获得最优决策动作。
[0012]进一步地,本专利技术中,步骤二中,获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值的具体方法为:
[0013]当采集的数据仅仅为图像信息时:
[0014]对图像信息进行正则化处理,将正则化处理后的数据依次输入至多奖励架构的深度Q值网络的卷积层和全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;
[0015]当采集的数据仅仅为点云数据时:
[0016]将点云数据依次输入至循环神经网络(LSTM)和全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;
[0017]当接收的数据同时包含点云数据和图像信息时:
[0018]将点云数据输入至循环神经网络,对图像信息进行正则化处理后输入至卷积层,将循环神经网络的输出和卷积层的输出进行拼接后输入至全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值。
[0019]进一步地,本专利技术中,步骤二中所述的驾驶策略为:加速、减速、向右转、向左转和不做动作五个策略动作。
[0020]进一步地,本专利技术中,多奖励架构的深度Q值网络包括三个奖励函数,分别为:安全性奖励函数、效率奖励函数和舒适性奖励函数。
[0021]进一步地,本专利技术中,安全性奖励函数为:
[0022][0023]其中,r
s
为预先设定的安全性奖励常数值,取值为正;R
s
(s,a)是在当前环境s下采用动作a获得的安全性奖励函数值。
[0024]进一步地,本专利技术中,效率奖励奖励函数为:
[0025][0026]其中,r
o
为预先设定的效率性奖励常数值,其取值为正;R
o
(s,a)是在当前环境s下采用动作a获得的效率奖励函数值。
[0027]进一步地,本专利技术中,舒适性奖励函数为:
[0028][0029]其中,r
l
为预先设定的舒适性奖励常数值,其取值为正;R
l
(s,a)是在当前环境s下采用动作a获得的舒适性奖励函数值。
[0030]进一步地,本专利技术中,步骤一中的多奖励架构的深度Q值网络是经过训练的,训练的具体方法为:
[0031]步骤S1、选定输入的环境状态样本S,输入至待训练的多奖励架构的深度Q值网络,获取全性、效率和舒适性三个维度下的驾驶决策的奖励估值;
[0032]步骤S2、计算三个维度下的驾驶决策的奖励估值的和Q
RAM
,获得任意一个动作a的Q
RAM
值,获取深度网络待训练的参数集合;
[0033]步骤S3、根据深度网络待训练的参数集合,确定损失目标函数,并对所述目标函数最小化,获得下一步的驾驶策略;
[0034]步骤S4、获取步骤S3所述的驾驶策略,对布置后S1的环境状态样本S更新,返回执行步骤S1,直至目标函数最小化后的值收敛。
[0035]进一步地,本专利技术中,步骤S3中的损失目标函数为:
[0036][0037]其中,θ
k
,k∈s,o,l为安全性维度、效率维度或舒适性维度下的深度网络待训练的参数集合;s,a,s

,a

分别表示当前时刻的环境状态、当前环境状态所采取的动作、下一时刻的环境状态和下一时刻环境状态下所采取的动作;Q
k
(s,a;θ
k
),k∈s,o,l表示在环境状态s下,采用动作a,在参数集合为θ
k
的情况下,未来预计在奖励维度k上,可以获得的累积预期总收益。
[0038]进一步地,本专利技术中,步骤三中,对三个维度下的驾驶决策的奖励估值求和为:
[0039][0040]其中,Q
RAM
(s,a;θ)为三个维度下的驾驶决策的奖励估值的和,θ为深度网络待训练的参数集合,θ
k
为安全性维度、效率维度或舒适性维度下的深度网络待训练的参数集合。
[0041]本专利技术所述方法的主体是一个深度Q估值网络(MRA

DQN),从多个维度出发,单独训练累积收益估值函数,也就是采用多奖励架构,对每个维度的收益进行单独而非耦合的评估方式,从而进一步提升基于强化学习的自动驾驶决策模型的性能。同时本专利技术分别针对安全性、超车、换道三个维度的收益设计了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,包括:步骤一、采用视觉传感器和LIDAR传感器实时采集自动驾驶车辆所处的环境信息;获取图像信息和/或点云信息;步骤二、将图像信息和/或点云信息输入至多奖励架构的深度Q值网络,获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;步骤三、对三个维度下的驾驶决策的奖励估值求和,获得总的驾驶策略奖励估值;步骤四、采用ε

贪心算法对所述驾驶策略奖励估值进行解析,获得最优决策动作。2.根据权利要求1所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,步骤二中,获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值的具体方法为:当采集的数据仅仅为图像信息时:对图像信息进行正则化处理,将正则化处理后的数据依次输入至多奖励架构的深度Q值网络的卷积层和全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;当采集的数据仅仅为点云数据时:将点云数据依次输入至多奖励架构的深度Q值网络的循环神经网络和全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值;当接收的数据同时包含点云数据和图像信息时:将点云数据输入至多奖励架构的深度Q值网络的循环神经网络,对图像信息进行正则化处理后输入至多奖励架构的深度Q值网络的卷积层,将循环神经网络的输出和卷积层的输出进行拼接后输入至全连接层,获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值。3.根据权利要求1或2所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,步骤二中所述的驾驶策略为:加速、减速、向右转、向左转和不做动作五个策略动作。4.根据权利要求3所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,多奖励架构的深度Q值网络包括三个奖励函数,分别为:安全性奖励函数、效率奖励函数和舒适性奖励函数。5.根据权利要求4所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,安全性奖励函数为:其中,r
s
为预先设定的安全性奖励常数值,取值为正;R
s
(s,a)是在当前环境s下采用动作a获得的安全性奖励函数值。6.根据权利要求4所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法,其特征在于,效率奖励奖励函数为:
其中,r
o
为预先设定的效率性奖励常数值,...

【专利技术属性】
技术研发人员:崔建勋张瞫刘昕
申请(专利权)人:崔建勋
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1