一种基于多维奖励架构深度Q学习的自动驾驶决策方法技术

技术编号：30557555 阅读：21 留言：0更新日期：2021-10-30 13:39

一种基于多维奖励架构深度Q学习的自动驾驶决策方法，属于自动驾驶技术领域。解决了现有驾驶决策方法存在多维度性能无法同时达到最优的问题。它采用视觉传感器和LIDAR传感器实时采集自动驾驶车辆所处的环境信息；获取图像信息和/或点云信息；将图像信息和/或点云信息输入至多奖励架构的深度Q值网络，获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值；对三个维度下的驾驶决策的奖励估值求和，获得总的驾驶策略奖励估值；采用ε

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维奖励架构深度Q学习的自动驾驶决策方法

[0001]本专利技术属于自动驾驶

技术介绍

[0002]自动驾驶决策是自动驾驶整体技术环节中至关重要的一环，它以状态感知为输入，以特定交通场景下的交通决策为输出，服务后续的自动驾驶车辆运动规划及车辆控制，它的智能化水平，直接决定了自动驾驶自动化程度的高低与质量。
[0003]传统上，自动驾驶决策一般有两种实现方式，分别是基于规则的方法和基于学习的方法。基于规则的方法常常通过人为的枚举出各种可能的交通驾驶状态，然后给出状态下对应的驾驶决策，作为规则集存储起来，当自动驾驶车辆遇到规则集中某条驾驶状态时，触发响应的决策行为。
[0004]这种方式最大的好处是安全、可控，一切都在人为的设计和理解范围内，但最大的问题是枚举所有自动驾驶可能遇到的交通情况是不现实的，对于一些规则集中没有定义的状态，自动驾驶车辆将不知如何决策，也就是无法泛化的问题。
[0005]基于学习的方法正好可以克服基于规则方法难以泛化的问题，它可以通过一些情景的状态和动作样本，训练决策模型，从而在遇到未知情景时同样可以生成较好的决策动作。基于学习的方法中，比较受到重视和具有突出潜力的方法是基于强化学习的决策方式。强化学习允许自动驾驶车辆与环境不断互动，在自主探索的情况下，不断提升自身的决策水平。但自动驾驶决策是一种复杂的决策行为，它所考虑的决策目标维度很多，例如包括安全性、舒适性、高效性、经济性等，而以往的基于强化学习的自动驾驶决策方法通常采用一个累积收益估计函数对多个维度...

【技术保护点】

【技术特征摘要】
1.一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，包括：步骤一、采用视觉传感器和LIDAR传感器实时采集自动驾驶车辆所处的环境信息；获取图像信息和/或点云信息；步骤二、将图像信息和/或点云信息输入至多奖励架构的深度Q值网络，获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值；步骤三、对三个维度下的驾驶决策的奖励估值求和，获得总的驾驶策略奖励估值；步骤四、采用ε
‑
贪心算法对所述驾驶策略奖励估值进行解析，获得最优决策动作。2.根据权利要求1所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，步骤二中，获取安全性、效率和舒适性三个维度下的驾驶决策的奖励估值的具体方法为：当采集的数据仅仅为图像信息时：对图像信息进行正则化处理，将正则化处理后的数据依次输入至多奖励架构的深度Q值网络的卷积层和全连接层，获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值；当采集的数据仅仅为点云数据时：将点云数据依次输入至多奖励架构的深度Q值网络的循环神经网络和全连接层，获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值；当接收的数据同时包含点云数据和图像信息时：将点云数据输入至多奖励架构的深度Q值网络的循环神经网络，对图像信息进行正则化处理后输入至多奖励架构的深度Q值网络的卷积层，将循环神经网络的输出和卷积层的输出进行拼接后输入至全连接层，获取自动驾驶的安全性、效率和舒适性三个维度下的驾驶决策的奖励估值。3.根据权利要求1或2所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，步骤二中所述的驾驶策略为：加速、减速、向右转、向左转和不做动作五个策略动作。4.根据权利要求3所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，多奖励架构的深度Q值网络包括三个奖励函数，分别为：安全性奖励函数、效率奖励函数和舒适性奖励函数。5.根据权利要求4所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，安全性奖励函数为：其中，r
s
为预先设定的安全性奖励常数值，取值为正；R
s
(s,a)是在当前环境s下采用动作a获得的安全性奖励函数值。6.根据权利要求4所述的一种基于多维奖励架构深度Q学习的自动驾驶决策方法，其特征在于，效率奖励奖励函数为：
其中，r
o
为预先设定的效率性奖励常数值，...

【专利技术属性】
技术研发人员：崔建勋，张瞫，刘昕，
申请(专利权)人：崔建勋，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人