当前位置: 首页 > 专利查询>清华大学专利>正文

一种车载视觉实时多目标多任务联合感知方法和装置制造方法及图纸

技术编号:24576890 阅读:116 留言:0更新日期:2020-06-21 00:30
本发明专利技术公开了一种车载视觉实时多目标多任务联合感知方法和装置。所述方法包括下述步骤:步骤S1,利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取;步骤S2,基于步骤S1提取的图像特征,预测各目标的类别及其在图像坐标系中的二维位置;步骤S3,基于步骤S1提取的图像特征以及步骤S2的检测结果,估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息,包括估计各目标三维中心在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值;步骤S4,道路分割:基于步骤S1提取的图像特征,输出所述单帧图像的场景中的道路分割结果。

A real-time multi-target and multi task joint perception method and device for vehicle vision

【技术实现步骤摘要】
一种车载视觉实时多目标多任务联合感知方法和装置
本专利技术涉及自动驾驶
,特别是涉及一种车载视觉实时多目标多任务联合感知方法和装置。
技术介绍
环境感知系统利用各种车载传感器进行数据采集和处理,为智能车辆提供自车与周围目标的位置和类别信息,以及相对距离、相对速度等信息,进而为上层的决策规划提供信息依据。视觉传感器作为一种被动传感器,使用一个或多个摄像头捕获道路场景图像,可直接检测前方障碍物并区分目标的类别,应用场景广泛且价格低廉。现有的车载环境感知算法大多针对单一任务或单一目标,基于深度学习的模型占用计算资源较多,算法运行耗时较长,从而不可能为每一种目标类型,每一项子任务单独设计算法模型。这些针对单一任务/目标的感知算法无法适应多种动静态目标同时存在的复杂行驶环境下的感知需求。
技术实现思路
本专利技术的目的在于提供一种车载视觉实时多目标多任务联合感知装置和训练方法来克服或至少减轻现有技术的上述缺陷中的至少一个。本专利技术提供一种车载视觉实时多目标多任务联合感知方法,所述车载视觉实时多目标多任务联合感知方法包括下述步骤:步骤S1,特征提取:利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取;步骤S2,二维目标检测:基于步骤S1提取的图像特征,预测各目标的类别及其在图像坐标系中的二维位置,所述类别为车辆、骑车人或行人;步骤S3,三维信息估计:基于步骤S1提取的图像特征以及步骤S2的检测结果,估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息,包括估计各目标三维中心在世界坐标系中的纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值,其中,以下述方法建立世界坐标系:以自车外三维包围框中心为坐标原点;以自车横向为x轴,右为正方向;以自车纵向为z轴,前方为正方向;以高度方向为y轴,下方为正方向;步骤S4,道路分割:基于步骤S1提取的图像特征,输出所述单帧图像的场景中的道路分割结果,将所述单帧图像的所有像素划分为道路和非道路两类。优选地,所述深度卷积神经网络特征提取器输出三种不同大小尺寸的预测端口,分别使用所述三种不同大小尺寸的预测端口来预测大、中、小尺寸的目标的类别及其在图像坐标系中的二维位置,其中所述三种预测端口在单帧图像的8、16和32倍下采样,以对大、中、小三种不同尺寸的目标进行检测。每种类别都有大、中、小三种尺寸对应的预测端口(特征图)。此种模型可以检测不同大小尺寸的各类目标。三种不同大小尺寸的预测端口用来检测不同大小尺寸的各类目标,输出目标的类别和表征目标位置和大小的目标矩形框。优选地,所述车载视觉实时多目标多任务联合感知方法采用端到端的方式进行参数学习,采用的损失函数为:L=ω2d*L2d+ω3d*L3d+ωr*Lr其中,L2d是二维目标检测分支的损失函数,L3d是三维信息估计分支的损失函数,Lr是道路分割分支的损失函数,ω2d是二维目标检测分支的损失函数的权重,ω3d是三维信息估计分支的损失函数的权重,ωr是道路分割分支的损失函数的权重。优选地,所述车载视觉实时多目标多任务联合感知方法的参数训练包括依次执行的下述步骤:步骤S01,网络预训练阶段;步骤S02,道路分割分支单独训练阶段;步骤S03,二维检测分支和道路分割分支共同训练阶段;步骤S04,二维检测分支、道路分割分支和主干网络共同训练阶段;步骤S05,主干网络和所有分支联合训练阶段在网络预训练阶段,先由用于通用图像分类的ImageNet数据集进行第一次预训练,再由用于通用二维目标检测的COCO数据集进行第二次预训练,训练主干网络和二维检测分支参数,最后保存预训练的主干网络及二维检测分支的权重;在道路分割分支单独训练阶段,采用KITTI道路分割数据子集的训练样本和KITTI语义分割数据子集的道路类别训练样本进行训练;在该阶段冻结预训练阶段的主干网络参数,二维检测和三维信息分支产生的损失不进行反向传播更新参数,损失的反向传播仅限定在道路分支的网络层中,设置ω2d=0,ω3d=0,ωr=1,在二维检测分支和道路分割分支共同训练阶段,冻结预训练阶段的主干网络参数,三维信息分支产生的损失不进行反向传播更新参数,损失的反向传播仅限定在二维检测分支和道路分支的网络层中,设置ω2d=1,ω3d=0,ωr=1,在二维检测分支、道路分割分支和主干网络共同训练阶段,除了三维信息分支产生的损失不进行反向传播更新参数,其他的损失均从网络后端经过主干网络反向传播至了网络前端,在主干网络和所有分支联合训练阶段,所有的损失都用于反向传播更新网络所有权重参数。优选地,在道路分割分支单独训练阶段,共训练5轮,每轮训练遍历一次所有的道路分割训练样本;在二维检测分支和道路分割分支共同训练阶段,对于标注了道路像素的样本和标注了二维目标框的样本,采用随机翻转、随机剪裁和平移的数据增强方式,共训练5轮,每轮训练遍历一次所有的道路分割和二维目标检测训练样本,由于KITTI数据集中,原始数据并不同时含有道路的标注和目标检测的标注,在实际训练中,每一次迭代使用一个批次的同一种标注样本,使用两种标注的样本轮流训练二维检测和道路分割分支,具体地,根据两种标注的总样本数,将ω2d和ωr轮流设置为1,在二维检测分支、道路分割分支和主干网络共同训练阶段,采用与二维检测分支和道路分割分支共同训练阶段相同的数据增强方法,共训练10轮,每轮训练遍历一次所有的道路分割和二维目标检测训练样本,在主干网络和所有分支联合训练阶段,对于标注了道路像素的样本,采用道路的数据增强方法,对于标注了二维和三维目标信息的样本,只采用随机翻转的数据增强方式,设置ω2d=1,ω3d=2,ωr=1,训练10轮,每轮训练遍历一次所有的道路分割、二维目标检测和三维目标检测训练样本。优选地,以下述步骤计算纵向距离和横向距离:步骤S31,利用下式(1)和式(2)所表示的纵向距离估计模型,输出所述单帧图像中第i个目标框的对应的纵向距离式(1)和式(2)中,是第i个目标框所处的总深度区间[lstart,lend]被划分成K个空间递增的纵向子区间对应的序号,为序号为的纵向子区间的纵向距离估计值,为序号为的纵向子区间的纵向距离估计值,Pik为第i个目标框的深度区间序号为k的概率,是回归补偿项的估计值;步骤S32,根据输入自车相机采集到的单帧图像以及步骤S31获得的纵向距离利用下式(3)所表示的横向距离估计模型,输出所述单帧图像中第i个目标框的横向距离X:式(3)中,fx是自车相机中心O与主点O1之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿X轴的分量,fy是自车相机中心O与所述主点O1之间的距离在以像素为单位的所述单帧图像所在的坐标系下沿Y轴的分量,所述主点O1是自车相机的光轴与其成像平面的交点;px本文档来自技高网...

【技术保护点】
1.一种车载视觉实时多目标多任务联合感知方法,其特征在于,所述车载视觉实时多目标多任务联合感知方法包括下述步骤:/n步骤S1,特征提取:利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取;/n步骤S2,二维目标检测:基于步骤S1提取的图像特征,预测各目标的类别及其在图像坐标系中的二维位置,所述类别为车辆、骑车人或行人;/n步骤S3,三维信息估计:基于步骤S1提取的图像特征以及步骤S2的检测结果,估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息,包括估计各目标三维中心在世界坐标系中的横纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值,其中,以下述方法建立世界坐标系:以自车外三维包围框中心为坐标原点;以自车横向为x轴,右为正方向;以自车纵向为z轴,前方为正方向;以高度方向为y轴,下方为正方向;/n步骤S4,道路分割:基于步骤S1提取的图像特征,输出所述单帧图像的场景中的道路分割结果,将所述单帧图像的所有像素划分为道路和非道路两类。/n

【技术特征摘要】
1.一种车载视觉实时多目标多任务联合感知方法,其特征在于,所述车载视觉实时多目标多任务联合感知方法包括下述步骤:
步骤S1,特征提取:利用深度卷积网络特征提取器(4)对车载单目相机采集的单帧图像(5)进行图像特征提取;
步骤S2,二维目标检测:基于步骤S1提取的图像特征,预测各目标的类别及其在图像坐标系中的二维位置,所述类别为车辆、骑车人或行人;
步骤S3,三维信息估计:基于步骤S1提取的图像特征以及步骤S2的检测结果,估计对于各目标进行三维重建所需要的三维位置、观测朝向和尺寸信息,包括估计各目标三维中心在世界坐标系中的横纵向距离、目标三维中心在图像平面的投影位置、目标的观测角度值及目标真实三维尺寸偏差值,其中,以下述方法建立世界坐标系:以自车外三维包围框中心为坐标原点;以自车横向为x轴,右为正方向;以自车纵向为z轴,前方为正方向;以高度方向为y轴,下方为正方向;
步骤S4,道路分割:基于步骤S1提取的图像特征,输出所述单帧图像的场景中的道路分割结果,将所述单帧图像的所有像素划分为道路和非道路两类。


2.如权利要求1所述的车载视觉实时多目标多任务联合感知方法,其特征在于,所述深度卷积神经网络特征提取器(4)输出三种不同大小尺寸的预测端口,分别使用所述三种不同大小尺寸的预测端口来预测大、中、小尺寸的目标的类别及其在图像坐标系中的二维位置,其中所述三种预测端口在单帧图像的8、16和32倍下采样,以对大、中、小三种不同尺寸的目标进行检测。


3.如权利要求1所述的车载视觉实时多目标多任务联合感知方法,其特征在于,所述车载视觉实时多目标多任务联合感知方法采用端到端的方式进行参数学习,采用的损失函数为:
L=ω2d*L2d+ω3d*L3d+ωr*Lr
其中,
L2d是二维目标检测分支的损失函数,
L3d是三维信息估计分支的损失函数,
Lr是道路分割分支的损失函数,
ω2d是二维目标检测分支的损失函数的权重,
ω3d是三维信息估计分支的损失函数的权重,
ωr是道路分割分支的损失函数的权重。


4.如权利要求2所述的车载视觉实时多目标联合感知方法,其特征在于,所述车载视觉实时多目标多任务联合感知方法的参数训练包括依次执行的下述步骤:
步骤S01,网络预训练阶段;
步骤S02,道路分割分支单独训练阶段;
步骤S03,二维检测分支和道路分割分支共同训练阶段;
步骤S04,二维检测分支、道路分割分支和主干网络共同训练阶段;
步骤S05,主干网络和所有分支联合训练阶段
在网络预训练阶段,先由用于通用图像分类的ImageNet数据集进行第一次预训练,再由用于通用二维目标检测的COCO数据集进行第二次预训练,训练主干网络和二维检测分支参数,最后保存预训练的主干网络及二维检测分支的权重;
在道路分割分支单独训练阶段,采用KITTI道路分割数据子集的训练样本和KITTI语义分割数据子集的道路类别训练样本进行训练;在该阶段冻结预训练阶段的主干网络参数,二维检测和三维信息分支产生的损失不进行反向传播更新参数,损失的反向传播仅限定在道路分支的网络层中,设置ω2d=0,ω3d=0,ωr=1,
在二维检测分支和道路分割分支共同训练阶段,冻结预训练阶段的主干网络参数,三维信息分支产生的损失不进行反向传播更新参数,损失的反向传播仅限定在二维检测分支和道路分支的网络层中,设置ω2d=1,ω3d=0,ωr=1,在二维检测分支、道路分割分支和主干网络共同训练阶段,除了三维信息分支产生的损失不进行反向传播更新参数,其他的损失均从网络后端经过主干网络反向传播至了网络前端,
在主干网络和所有分支联合训练阶段,所有的损失都用于反向传播更新网络所有权重参数。


5.如权利要求4所述的车载视觉实时多目标联合感知方法,其特征在于,
在道路分割分支单独训练阶段,共训练5轮,每轮训练遍历一次所有的道路分割训练样本;
在二维检测分支和道路分割分支共同训练阶段,对于标注了道路像素的样本和标注了二维目标框的样本,采用随机翻转、随机剪裁和平移的数据增强方式,共训练5轮,每轮训练遍历一次所有的道路分割和二维目标检测训练样本,由于KITTI数据集中,原始数据并不同时含有道路的标注和目标检测的标注,在实际训练中,每一次迭代使用一个批次的同一种标注样本,使用两种标注的样本轮流训练二维检测和道路分割分支,具体地,根据两种标注的总样本数,将ω2d和ωr轮流设置为1,
在二维检测分支、道路分割分支和主干网络共同训练阶段,采用与二维检测分支和道路分割分支共同训练阶段相同的数据增强方法,共训练10轮,每轮训练遍历一次所有的道路分割和二维目标检测训练样本,
在主干网络和所有分支联合训练阶段,对于标注了道路像素的样本,采用道路的数据增强方法,对于标注了二维和三维目标信息的样本,只采用随机翻转的数据增强方式,设置ω2d=1,ω3d=2,ωr=1,训练10轮,每轮训练遍历一次所有的道路分割、二维目标检测和三维目标检测训练样本。


6.如权利要求1所述的车载视觉实时多目标联合感知方法,其特征在于,以下述步骤计算纵向距离和横向距离:
步骤S31,利用下式(1)和式(2)所表示的纵向距离估计模型,输出所述单帧图像中第i个目标框的对应的纵向距离






式(1)和式(2)中,是第i个目标框所处的总深度区间[lstart,lend]被划分成K个空间递增的纵向子区间对应的序号,为序号为的纵向子区间的纵向距离估计值,为序号为的纵向子区间的纵向距离估计值,Pik为第i个目标框的深度区间序号为k的概率,是回归补偿项的估计值;
步骤S32,根据输入自车相机采集到的单帧图像以及步骤S31获得的纵向距离利用下式(3)所表示的横向距离估计模型,输出所述单帧图像中第i个目标框的横向距离X:



式(3)中,fx是自车相机中心O与主点O1之间的距离在以像素...

【专利技术属性】
技术研发人员:李克强余大蒙熊辉王建强许庆
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1