当前位置: 首页 > 专利查询>重庆大学专利>正文

基于单帧图像的实时目标检测与3D定位方法技术

技术编号:25709825 阅读:28 留言:0更新日期:2020-09-23 02:56
本发明专利技术涉及一种基于单帧图像的实时目标检测与3D定位方法,属于视觉处理技术领域。该方法包括以下步骤:S1:输入一张二维的RGB图像;S2:对二维的RGB图像进行特征提取,并分别提取出深层网络的特征与浅层网络的特征;S3:进行二维目标识别模块,并应用在后续模块;S4:分别进行三维框顶点、实例级深度信息与三维框中心点的估计;S5:将水平局部性保持正则化项加入三维框中心点预测中,从而约束并优化三维框中心点的预测;S6:结合所有模块的预测,输出带有3D‑Box标记的二维RGB图像。本发明专利技术提高了模型训练收敛的速度与3D目标识别与定位的准确度,同时满足了低硬件成本的ADAS方案对准确度的要求。

【技术实现步骤摘要】
基于单帧图像的实时目标检测与3D定位方法
本专利技术属于视觉处理
,涉及基于单帧图像的实时目标检测与3D定位方法。
技术介绍
基于机器视觉的3D目标检测与定位主要是通过传感器来获取图像信息或者点云信息,之后通过卷积神经网络来提取图像或点云中目标的特征信息,并通过处理特征信息来返回目标的三维信息,即目标的中心点坐标,三维边框的长宽高和与机位之间的相位关系。最终在图像中通过三维边框的形式来表示目标的三维信息。近几年来,由于深度学习方法的快速发展使得研究人员和工程师能够开发准确且经济高效的辅助驾驶系统(ADAS)。而目前来说,可以从传感器的不同分为基于激光雷达的3D目标检测和基于摄像头的3D目标检测。其中基于摄像头的3D目标检测主要可以分为基于多帧图像视差原理的3D目标检测与基于单帧图像的3D目标检测。自2016年第一篇基于激光雷达的三维识别论文发表以来,基于激光雷达的3D目标检测得到飞速发展。在2017年Charles教授第一次提出了将深度学习技术应用到基于点云的3D目标检测上。之后,谷歌、Uber、香港中文大学、上海交通大学本文档来自技高网...

【技术保护点】
1.基于单帧图像的实时目标检测与3D定位方法,其特征在于:该方法包括以下步骤:/nS1:输入一张二维的RGB图像;/nS2:对二维的RGB图像进行特征提取,并分别提取出深层网络的特征与浅层网络的特征;/nS3:进行二维目标识别模块,并应用在后续模块;/nS4:分别进行三维框顶点、实例级深度信息与三维框中心点的估计;/nS5:将水平局部性保持正则化项加入三维框中心点预测中,从而约束并优化三维框中心点的预测;/nS6:结合所有模块的预测,输出带有3D-Box标记的二维RGB图像。/n

【技术特征摘要】
1.基于单帧图像的实时目标检测与3D定位方法,其特征在于:该方法包括以下步骤:
S1:输入一张二维的RGB图像;
S2:对二维的RGB图像进行特征提取,并分别提取出深层网络的特征与浅层网络的特征;
S3:进行二维目标识别模块,并应用在后续模块;
S4:分别进行三维框顶点、实例级深度信息与三维框中心点的估计;
S5:将水平局部性保持正则化项加入三维框中心点预测中,从而约束并优化三维框中心点的预测;
S6:结合所有模块的预测,输出带有3D-Box标记的二维RGB图像。


2.根据权利要求1所述的基于单帧图像的实时目标检测与3D定位方法,其特征在于:所述步骤S5中,通过使用水平几何局部性保持的正则化算法来约束水平信息的预测,增加整体3D-Box的识别精度,包括以下步骤:
S51:将水平几何局部性保持假设设计成3D-Box中心点损失函数的正则化项,假设图像内有M个目标样本;矩阵S={sij}定义为M×M相邻矩阵,也称为权重矩阵;表达式如公式(1):



其中sij表示相近深度目标和目标间的水平相邻性度量,i,j={1,...,M}表示第i,j个目标,和是目标和目标在二维图像上的水平偏移,为一个自定义参数,为目标的3D-box中心点的真实深度信息;
S52:将公式(1)定义的相似关系应用在3D-Box中心点预测的神经网络全连接层中;设目标在此层的特征信息yi表示为:yi=Wxi+b其中xi表示该全连接层的输入,W为连接权重,b为偏差向量;假设训练目标和目标在3D深度和2D水平方向相邻,则整个网络将尝试估计最佳连接权重W,则目标的3D水平偏移也相近;定义正则化项R(W)为相邻目标对的特征差异,表达式如公式(2):



其中,β为自定义参数;若i,j样本对相邻程度越大,那么相邻度量sij越大,在最小化整个损失函数过程中,sij就能更快地缩小Wxi与Wxj之间的距离,从而将目标物体对在二维空间上的相邻性保持到三维空间;将R(W)加入在单帧图像三维目标检测网络的整体损失函数上,最终网络的整体损失函数L表示为:
L=L2d+Ldepth+L3d+R(W)
相关损失函数采用L1或L2损失函数误差定义;
其中,L2d表示:在2D目标检测损失函数中,为目标置信度的损失函数与2D-Box的损失函数之和;
Ldepth表示:深度信息的损失函数通过L1损失函数分别算出深层神经网络与浅层神经网络的深度损失函数,并通过权值r来链接两个损失函数,组成最终的深度信息损失函数;
L3d表示:将3D损失函数分为3D-Box与其中心点的损失函数,两者采用L1损失函数...

【专利技术属性】
技术研发人员:周喜川龙春桥彭逸聪
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1