一种基于单目视觉的目标定位方法技术

技术编号:25046453 阅读:21 留言:0更新日期:2020-07-29 05:35
本发明专利技术公开了一种基于单目视觉的目标定位方法,通过单幅RGB图像实现目标检测和定位测距,使用深度学习技术回归目标尺寸,无需交互式提供待检测目标先验信息,简化了整个定位流程;通过引入比例因子将传统单目定位模型扩展至三维空间,并且提出了一种基于优化理论的目标定位方法,将目标定位问题转化为优化问题,理论上,在焦距适合的前提下,针对不同距离的目标均能实现高精度目标定位;相较于双目测距,本发明专利技术所提出方法理论上不受基线限制,更易在室外复杂环境下部署,适用范围更广;本发明专利技术所提方法可以同时检测单幅RGB图像上的多个目标物,进而构建整个场景的动态地图。

【技术实现步骤摘要】
一种基于单目视觉的目标定位方法
本专利技术属于目标定位
,具体涉及一种基于单目视觉的目标定位方法。
技术介绍
目标定位技术是立体视觉的核心问题之一,广泛应用于无人驾驶、航空测绘、军事侦查和工业检测等领域。作为目标定位技术中的一个分支,基于单目视觉的目标定位技术在近年来的研究中受到广泛的关注,相应的研究方法主要可以分为以下三类:1、基于传统单目定位模型的目标定位方法。根据相似三角形原理,传统的单目定位模型认为对于焦距固定的镜头,当目标投影大小不变时,目标深度与目标大小成正比。如姬艳鑫在专利《一种基于单目视觉的目标识别定位方法》(CN110009682)中将目标检测模型提取到的目标回归框大小作为目标投影大小并代入单目定位模型解算目标位置信息。显然,在现实情况下,检测回归框构成的是目标三维立体结构投影的边界,因此目标与回归框之间无法直接构成映射关系,因此将回归框大小用于目标定位会带来定位误差。2、基于约束的目标定位方法。此类方法认为在理想条件下,目标的三维立体投影边界与检测回归框应保持一致,进而以此作为约束并参与目标位置解算。如A.Mousavian等在论文《3DBoundingBoxEstimationUsingDeepLearningandGeometry》中首先利用深度学习技术检测目标并回归尺寸、姿态等相关信息,然后基于约束定位目标。然而由于约束的强耦合性质,目标检测的微小误差会极大的削弱模型的定位性能。3、基于深度学习的目标定位方法。随着深度学习技术的发展,一些学者利用端到端的神经网络检测目标并回归目标深度信息。一般而言,此类方法需要大量具有目标真实位置标签的数据集,且在陌生环境下,模型的定位稳定性较差。
技术实现思路
有鉴于此,本专利技术提供了一种基于单目视觉的目标定位方法,可利用简单设备,实现更好的目标定位。一种基于单目视觉的目标定位方法,包括以下步骤:步骤1:首先对单目视觉摄像头进行标定,获取摄像头的内参和畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像;使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高;然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R;最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;步骤3:三维空间中,记BtBd为目标的中轴线,记H为目标高度,BtBd在图像平面的投影长度为hr且hr≠bh;引入比例因子α使得hr=α*bh;根据目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;步骤4:以目标中心点B为原点,建立物体局部坐标系;根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{pi|1≤i≤8};利用步骤2与步骤3得到的数据,依据几何投影关系,得到目标的三维立体投影边界满足等式(2):用目标函数Ld(α)表征目标的三维立体投影边界与步骤2中检测得到的目标回归框之间的重合程度,如下:其中为步骤2检测得到的目标回归框边界,满足:将等式(1)(2)(4)代入等式(3),得到Ld(α)的表达式,其中α为未知数;求解使得Ld(α)取最小值的α,定义为α*;步骤5:将hr=α**bh代入等式(1)中解算出目标在相机坐标系的坐标。进一步的,所示步骤2中,当深度学习模型检测出环境中存在多个目标时,根据步骤3至步骤5的方法分别定位每个目标。进一步的,所述步骤5中,采用摄像头GPS和惯性导航设备进一步获取目标的绝对位置。进一步的,根据步骤5得到的目标位置信息,搭建可视化平台,构建环境的动态实时地图。较佳的,采用梯度下降法求解α。本专利技术具有如下有益效果:1、本专利技术只利用了单幅RGB图像即可完成目标的检测与定位过程,相较于雷达等设备,单目摄像头更为廉价且易于安装使用。除此之外,相较于双目定位技术,本专利技术利用的单目定位理论不受基线的限制,因此更易于野外环境下的部署以及远距离小目标定位场景。2、本专利技术所提供的方法将传统定位模型扩展至三维空间,并在一定程度上弱化了目标检测和目标定位之间的耦合关系,因此相较于传统单目定位模型以及基于约束的目标定位方法,本专利技术的定位性能更优。3、本专利技术所提供的方法采用了深度学习技术回归目标尺寸大小,因此不需要交互式地提供目标具体尺寸等先验信息,完成了拍摄即检测,检测即定位一体化。附图说明图1为本专利技术所提供的方法的流程图;图2为本专利技术的单目定位模型示意图。具体实施方式下面结合附图,对本专利技术进行详细描述。如图1所示,本专利技术提供了一种基于单目视觉的目标定位方法,具体包括以下步骤:步骤1:对单目摄像头进行标定并获得摄像头的内参及畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像。首先使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高。然后使用深度学习目标尺寸及姿态回归网络(参见文献:A.Mousavian,D.Anguelov,J.Flynn,etal.3DBoundingBoxEstimationUsingDeepLearningandGeometry[J].2016)得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R。最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;步骤3:如图2所示,三维空间中,记BtBd为目标的中轴线,记H为目标高度。显然,BtBd在图像平面的投影长度为hr且hr≠bh,因此这里引入比例因子α使得hr=α*bh。假设目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:由等式(1)可知,目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;步骤4:建立物体局部坐标系,即以目标中心点B为原点,分别以平行于目标长、宽和高的方向作为三个坐标轴,建立三维空间直角坐标系。根据步骤2得到的目本文档来自技高网
...

【技术保护点】
1.一种基于单目视觉的目标定位方法,其特征在于,包括以下步骤:/n步骤1:首先对单目视觉摄像头进行标定,获取摄像头的内参和畸变系数,假设标定后的内参矩阵为K,其中像素焦距为f

【技术特征摘要】
1.一种基于单目视觉的目标定位方法,其特征在于,包括以下步骤:
步骤1:首先对单目视觉摄像头进行标定,获取摄像头的内参和畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;
步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像;使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高;然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R;最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;
步骤3:三维空间中,记BtBd为目标的中轴线,记H为目标高度,BtBd在图像平面的投影长度为hr且hr≠bh;引入比例因子α使得hr=α*bh;根据目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:



目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;
步骤4:以目标中心点B为原点,建立物体局部坐标系;根据步骤2得到的目标尺寸L,W,H初始化目标的8...

【专利技术属性】
技术研发人员:邓方高峰姬艳鑫石翔李凌汉王向阳陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1