一种融合多源数据及综合多维指标的自动驾驶决策方法技术

技术编号：31161522 阅读：13 留言：0更新日期：2021-12-04 10:30

本发明专利技术公开了一种融合多源数据及综合多维指标的自动驾驶决策方法，包括以下步骤：步骤1、单目视觉信息处理，步骤2、多源传感数据融合，步骤3、多维评价指标综合，步骤4、异步驾驶信息收集，步骤5、驾驶策略模块训练；本发明专利技术的有益效果是能够通过自动化收集训练数据集，使用预先定义好的策略评估模块指导训练，无需提前采集专家策略的驾驶信息，降低了训练的成本，提高了驾驶策略的鲁棒性。提高了驾驶策略的鲁棒性。提高了驾驶策略的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合多源数据及综合多维指标的自动驾驶决策方法

[0001]本专利技术属于城市自动驾驶领域，具体涉及一种融合多源数据及综合多维指标的自动驾驶决策方法。

技术介绍

[0002]随着车载传感器精度的提高和感知数据处理技术的飞速发展，自动驾驶成为近年来的热门领域。城市自动驾驶人们接触最为频繁的驾驶场景，在城市驾驶中，给定一个起点、一个终点、一条规划路径(如通过百度地图、谷歌地图规划的驾驶路线)，自动驾驶系统的任务是在城市交通中，通过控制车辆的驾驶策略，无碰撞的完成预设好的驾驶路径，驾驶策略指的是控制自动驾驶汽车的方向值、油门值和刹车值。
[0003]自动驾驶系统的感知数据来源于高精度车载传感器。高维度的传感数据如图片、三维点云数据需要从摄像头和雷达传感器中获得，低维度传感数据(如车辆位置、车辆方向)需要从GNSS(全球导航卫星系统)传感器、IMU(惯性传感器)传感器中获得。摄像头的数据能够提供道路的精细检测，但是需要经过高准确度的感知信息处理。GNSS、IMU传感器的数据能够直接提供车辆的位置和方向，但是系统不稳定，在立交桥、高楼附近信号弱，容易失效。目前的自动驾驶感知技术，一部分是从摄像头中检测目标(其他车辆、行人、车道线)，一部分是从传感器数据直接获得感知数据(如车辆的位置)，缺乏一种自动化的方法将二者结合。因此，合理融合多源传感器数据，为环境感知和车辆自身的感知提供更为丰富的信息，十分必要。一个合理的多维综合指标对于自动驾驶系统的训练和评估都十分重要。目前的自动驾驶系统或者是关注车辆的横向控制(控制车辆的方...

【技术保护点】

【技术特征摘要】
1.一种融合多源数据及综合多维指标的自动驾驶决策方法，其特征在于，包括以下步骤：步骤1、单目视觉信息处理，训练图像处理模块，将高维的图片信息处理为一维的特征向量，构建环境感知数据集，使用噪声增强驾驶策略在无人驾驶环境中采集图像数据，通过车载单目摄像头保存图像数据，使用噪声增强的驾驶策略把随机噪声引入到专家策略中并让专家策略能够收集到一些错误驾驶所对应的图像以利于驾驶策略的训练，专家策略是基于人类驾驶经验设计的一系列包含环境模型、驾驶员模型和汽车模型在内的复杂规则集合，在收集好图像信息之后，使用这些信息进行图像处理模块的自监督训练，图像处理模块使用自监督的方法把RGB图像使用一个编码器提取为一维特征向量并使用重参数技巧将一维的特征向量重构为RGB图像，通过编码器
‑
解码器结构对环境特征进行提取，提取对于驾驶策略有用的环境信息并为驾驶策略的训练提供输入环境信息；步骤2、多源传感数据融合，环境感知模块融合摄像头传感器、GNSS传感器、IMU传感器和速度传感器数据，共同构造环境感知信息；多源数据融合包含两部分，分别为经步骤1训练好的图像处理模块和直接接收传感器低维数据的偏移计算模块，图像处理模块用于接收RGB摄像头采集的图像，得到图像感知信息，偏移计算模块用于接收路径规划器产生的航点数据，IMU传感器信息、GNSS传感器信息和速度传感器信息，计算自车和航点之间的偏移距离和偏移角度，自车即为受本发明所述自动驾驶决策方法控制的车辆；步骤3、多维评价指标综合，设计一个策略评估模块，对自动驾驶当前的横向控制即车辆方向的控制和纵向控制即车辆速度的控制的好坏进行实时评估，用于以下步骤5的训练，也能用于其他驾驶策略的评估，策略评估模块包含自动驾驶系统横向控制的评估、纵向控制的评估和事件评估三个部分；步骤4、异步驾驶信息收集，使用分布式结构，在不同环境中在线收集驾驶信息并存储在驾驶信息池中，用于步骤5中的驾驶策略的训练；异步信息收集体现在每个工作进程含有独立的自动驾驶环境，各个进程间的驾驶信息收集互相独立，同时进行，通过分布式的框架，增加相同时间内产生的驾驶信息的个数与多样性以提高驾驶策略训练的效率；步骤5、驾驶策略模块训练，将环境感知模块固定，使用分布式在线深度强化学习训练方法控制自动驾驶系统与自动驾驶环境进行交互，训练得到一个鲁棒的驾驶策略，驾驶策略模块包括长短期记忆人工神经网络、策略网络和状态价值预估网络，长短期记忆人工网络用于从前后多帧对应的环境特征向量中提取时序特征，策略网络用于输出驾驶策略即转向值、油门值、刹车值，其中转向值的范围是[
‑
90,90]，
‑
90代表向左转90
°
，90代表向右转90
°
，油门值的范围是[0,1]，0代表不踩油门，1代表油门全部踩下，刹车值的范围是[0,1]，0代表不踩刹车，1代表刹车全部踩下，状态价值预估网络是对当前自动驾驶状态的好坏进行预估，驾驶策略模块根据策略评估模块给出的评估值并更新驾驶策略模块中的长短期记忆人工神经网络、策略网络和状态价值预估网络。2.根据权利要求1所述的一种融合多源数据及综合多维指标的自动驾驶决策方法，其特征在于，所述步骤2包括以下步骤：步骤201、从GNSS传感器得到当前自车位置(x0，y0)，从路径规划器和自车位置得到距离当前自车位置最近的航点(x
w
，y
w
)，从IMU传感器得到当前车辆的偏航角α；步骤202、将全局坐标系转换为相对坐标系，以当前自车位置为原点，根据下面的公式
(1)计算航点相对位置(x
′
w
，y
w
)：步骤203、根据下列公式(2)计算车辆方向向量(x1，y1)：步骤204、根据下列公式(3)计算车辆偏移角度θ：步骤205、根据车辆位置和航点位置，计算车辆偏移距离d，如以下公式(4)所示：步骤206、综合上述结果，偏移计算模块得到度量向量(θ，d,v)；步骤207、将图像处理模块得到的特征向量和上述步骤得到的度量向量结合，环境感知模块得到t时刻的环境特征向量环境z
t
。3.根据权利要求1所述的一种融合多源数据及综合多维指标的自动驾驶决策方法，其特征在于，所述步骤3包括以下步骤：步骤301、自动驾驶系统横向控制的评估对于自动驾驶车辆的方向控制进行评估，使沿车道行驶的驾驶策略得到高的评估并使远离车道行驶的驾驶策略得到低的评估，横向评估分为对于自动驾驶车辆偏移角度的评估和对于偏移距离的评估，输入是偏移距离、道路宽度、偏移角度和最大偏移角度，输出是横向评估值；步骤302、自动驾驶系统纵向控制的评估对于自动驾驶车辆的速度控制进行评估，使能够沿目标速度稳定的驾驶策略得到高的评估，使错误的速度控制驾驶策略得到低的评估，具体分为前方有障碍物时车辆速度的评估和前方无障碍物时车辆速度的评估，纵向控制评估的输入是通过车载速度传感器得到的车辆速度、预设的最大...

【专利技术属性】
技术研发人员：赵一诺，刘驰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人