基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质技术方案

技术编号:19594843 阅读:795 留言:0更新日期:2018-11-28 05:22
本发明专利技术提供一种基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质,包括S01:建立基础网络模型;S02:获取捕获图像,从捕获图像中获取待标注物体的标注轮廓,获取标注轮廓各个顶点的坐标数据,并将标注轮廓各个顶点的平面坐标数据作为训练基础网络模型的输入,训练该基础网络模型;S03:将待检测的图像输入该基础网络模型,输出该捕获图像的三维标注结果。本发明专利技术通过建立一个基于快速检测的CNN网络模型,进行二维车辆目标检测和三维车辆姿态估计,在检测目标的同时估计出该目标的姿态,它扩展了SSD算法以涵盖完整的3D姿态空间并仅训练合成模型数据,只需要使用传统视觉传感器,其硬件成本极低,其性价比较高。

【技术实现步骤摘要】
基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质
本专利技术涉及车载电子
,特别是涉及一种基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质。
技术介绍
姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。在不同领域用于姿态估计的传感器是不一样的,在这里主要讲基于视觉的姿态估计。基于视觉的姿态估计根据使用的摄像机数目又可分为单目视觉姿态估计和多目视觉姿态估计。在导航感知的应用中,对车辆目标不仅要获得其检测框,还需要估计出该目标的三维姿态,三维姿态信息包括车辆的长宽高及航向角,及相对相机的偏移坐标。目前许多研究方案基本都是基于激光点云来对目标姿态进行估计,其获得数据的硬件设备成本极高,且使用寿命短。所以导航感知应用对基于单目的三维姿态估计的需求越来越迫切。目前的三维目标姿态估计大部分都是基于稠密的激光点云数据设计深度学习网络完成的。此技术虽然精度高,但是激光雷达设备昂贵,且使用寿命短。
技术实现思路
为了解决上述的以及其他潜在的技术问题,本专利技术提供了一种基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质,第一,通过建立一个基于快速检测的CNN网络模型,进行二维车辆目标检测和三维车辆姿态估计,在检测目标的同时估计出该目标的姿态。第二,它扩展了SSD算法以涵盖完整的3D姿态空间并仅训练合成模型数据,只需要使用传统视觉传感器,其硬件成本极低,其性价比较高。第三,该方法快速准确,在车载芯片上具有使用价值,总之,该专利技术无论在跟踪和定位及导航应用上,都可以作为一种有效的检测和估计手段。一种基于单目的车辆三维目标姿态估计方法,包括以下步骤:S01:建立基础网络模型;S02:获取捕获图像,从捕获图像中获取待标注物体的标注轮廓,获取标注轮廓各个顶点的坐标数据,并将标注轮廓各个顶点的平面坐标数据作为训练基础网络模型的输入,训练该基础网络模型;S03:将待检测的图像输入该基础网络模型,输出该捕获图像的三维标注结果。进一步地,所述步骤S02中从捕获图像中获取各个顶点的坐标数据,该坐标数据包括该像素点在捕获图像中的位置、鸟瞰图中的位置以及目标物体各个顶点深度信息中的一种或几种。进一步地,所述步骤S02中的从顶点的坐标数据到顶点深度信息的具体获得方法是:S021:获取捕获图像所在视角的二维坐标,每个像素点标记为[x,y]。S022:给予像素点坐标[x,y]一个深度维度,使其变换为一个初始的三维坐标点[x,y,1];S023:通过摄像头参数至鸟瞰图获得变换矩阵,再以变换矩阵获取深度值depth;S024:将初始的三维坐标点[x,y,1]与深度值depth拟合得到三维坐标点输出[x,y,z]。进一步地,所述步骤S023中的变换矩阵获得深度值的方法是:设像素点三维坐标pi=[xi,yi,1]T∈P,变换后的像素点三维坐标p'i=[x'i,y'i,1]T∈P'等于Hpi;将目标物体底面上的顶点所在捕获图像上的像素点的三维坐标pi=[xi,yi,1]进行变换top'i=Hpi=[xi,y'i,1],得到目标物体的深度值。进一步地,还包括步骤S04:将步骤S03中获得的三维标注结果后处理,减小利用单帧图像处理得到的三维标注结果在深度上的误差,从而得到真实的三维标注长宽高,航向角及相对相机的偏移。进一步地,在步骤S04中的后处理过程中,为了训练H-Net输出最适合拟合多项式到3Dbox的像素点的变换矩阵而修正了损失函数,给出损失函数公式。真实的像素点的三维坐标pi=[xi,yi,1]T∈P,先这些像素点pi使用H-Net的输出:P'=HP以及p'i=[x'i,y'i,1]T∈P'。进一步地,所述损失函数在训练时,损失函数由3个损失项组成,其中三个损失项分别是L-cls项,L-loc项和L-pos项。进一步地,所述L-cls项,L-loc项和L-pos项分别为theclass、localizationandposeloss。进一步地,所述步骤S01中,为了对基础网络模型做反向传播,我们需要先匹配检测的预选框(appropriatedefaultboxes)和真值框(groundtruthdetection)以及姿态标注(poseannotation)。优选地,检测预选框和真值框沿用SSD算法中的预设默认框(anchor)和匹配策略。优选地,所述SSD算法取用的是与真值匹配度超过0.5的预选框来做目标检测,一个真值框可以匹配到多个预选框。进一步地,所述步骤S02中还包括在捕获图像中以预选框选取目标检测区域,再以目标检测区域为目标进行下列步骤操作。进一步地,所述步骤S03中的基础网络模型是在原有的深度学习/机器学习的基础网络模型上添加一组卷积核,以回归捕获图像中目标物体的三维标注结果。进一步地,所述基础网络模型包括但不限于resnet基础网络、vggnet基础网络、Googlenet基础网络、pvanet基础网络、enet基础网络、senet基础网络和squezznet基础网络,但也可以采用基于基础网络的优化网络。作为优选实施例,所述基础网络模型采用resnet基础网络,且采用50层卷积层具有更好的效果。进一步地,所述步骤S03中基础网络模型以VGGNET作为基础网络段,每个添加的特征层可以使用一组卷积滤波器产生固定的预测集合,对于具有p通道的尺寸为m×n的特征层,在3×3×p卷积核卷积核的基础上添加一组3x3的卷积核,用该组添加的3*3的卷积核来回归八个点的坐标,再用相机的外参算出八个点的xyz坐标,利用八个点的三维坐标算出车辆的三维相关数据,完成整车姿态估计。进一步地,还包括步骤S05:对步骤S04获得的三维标注长宽高进行验证,若验证结果的各项参数符合预设值,则不修正损失函数,若验证结果的各项参数不符合预设值,修改步骤S04中的损失函数。进一步地,所述步骤S05中,损失函数公式:L_tot=L_cls+α1*L_loc+α2*L_pose;其中设置α1=1,α2=1;其中L_cls为softmax损失,L_loc和L_pose选为SmoothL1回归损失。优选地,在验证时,对SSD算法中原有的数据增强训练策略做了细微的改动,原策略中,采样选取的是与真值框最小重叠度[0.10.3,0.5,0.7,0.9]的图像片段,本专利技术中,由于姿态的预测非常困难,我们选取的阈值是[0.7,0.9]。进一步地,所述步骤S02中选用的训练策略具体是:数据量7812张,batchsize=32,一共训练了50个epoch,训练可以快速收敛。一种基于单目的车辆三维目标姿态估计系统,包括视觉传感器、训练集、基础网络模型、平面顶点坐标捕捉模块、深度信息获取模块、三维标注结果;所述视觉传感器用于获取捕获图像,所述训练集用于训练基础网络模型;所述平面顶点坐标捕捉模块用于从捕获图像中获取待标注物体的标注轮廓,获取标注轮廓各个顶点的坐标数据,作为训练基础网络模型的输入;所述深度信息获取模块用于自顶点的坐标数据通过变换矩阵得到顶点深度信息;所述三维标注结果是由将待检测的捕获图像输入训练后的基础网络模型得到的。进一步地,所述后处理模块包括深度误差获取模块、航向角获取模块、损失函数修正模块。进一步地,所述基础网络模型处理捕获图像时,还包括用于在本文档来自技高网...

【技术保护点】
1.一种基于单目的车辆三维目标姿态估计方法,其特征在于,包括以下步骤:S01:建立基础网络模型;S02:获取捕获图像,从捕获图像中获取待标注物体的标注轮廓,获取标注轮廓各个顶点的坐标数据,并将标注轮廓各个顶点的平面坐标数据作为训练基础网络模型的输入,训练该基础网络模型;S03:将待检测的图像输入该基础网络模型,输出该捕获图像的三维标注结果。

【技术特征摘要】
1.一种基于单目的车辆三维目标姿态估计方法,其特征在于,包括以下步骤:S01:建立基础网络模型;S02:获取捕获图像,从捕获图像中获取待标注物体的标注轮廓,获取标注轮廓各个顶点的坐标数据,并将标注轮廓各个顶点的平面坐标数据作为训练基础网络模型的输入,训练该基础网络模型;S03:将待检测的图像输入该基础网络模型,输出该捕获图像的三维标注结果。2.根据权利要求1所述的基于单目的车辆三维目标姿态估计方法,其特征在于,所述步骤S02中从捕获图像中获取各个顶点的坐标数据,该坐标数据包括该像素点在捕获图像中的位置、鸟瞰图中的位置以及目标物体各个顶点深度信息中的一种或几种。3.根据权利要求2所述的基于单目的车辆三维目标姿态估计方法,其特征在于,所述步骤S02中顶点深度信息的具体获得方法是:S021:获取捕获图像所在视角的二维坐标,每个像素点标记为[x,y]。S022:给予像素点坐标[x,y]一个深度维度,使其变换为一个初始的三维坐标点[x,y,1];S023:通过摄像头参数至鸟瞰图获得变换矩阵,再以变换矩阵获取深度值depth;S024:将初始的三维坐标点[x,y,1]与深度值depth拟合得到三维坐标点输出[x,y,z]。4.根据权利要求3所述的基于单目的车辆三维目标姿态估计方法,其特征在于,还包括步骤S04:将步骤S03中获得的三维标注结果后处理,减小利用单帧图像处理得到的三维标注结果在深度上的误差,从而得到真实的三维标注长宽高,具体后处理采用训练H-Net输出最适合拟合多项式到3Dbox的像素点的变换矩阵修正损失函数,其中损失函数包括三个损失项,分别是L-cls项,L-loc项和L-pos项。5.根据权利要求4所述的基于单目的车辆三维目标姿态估计方法,其特征在于,还包括步骤S05:对步骤S04获得的三维标注长宽高进行验证,若验证结果的各项参数符合预设值,则不修正损失函数,若验证结果的各项参数不符合预设值,修改步骤S04中的损失函数。6.根据权利要求1所述的基于单目的车辆三维...

【专利技术属性】
技术研发人员:童仁玲唐锐
申请(专利权)人:北京纵目安驰智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1