一种基于RGB-D相机的卷积神经网络目标检测方法技术

技术编号:21401266 阅读:22 留言:0更新日期:2019-06-19 07:37
本发明专利技术涉及一种基于RGB‑D相机的卷积神经网络目标检测方法。目前越来越多的目标检测算法都利用了卷积神经网络来对目标物体进行定位。然而大部分的卷积神经网络框架都只是利用彩色相机对目标物体的位置进行预测。然而只利用RGB信息,要使卷积神经网络达到较高的检测精度有很大的难度,需要综合考虑卷积神经网络建模,训练方案等诸多方面因素,较难实现。本发明专利技术利用了RGB‑D相机采集的深度图,辅助卷积神经网络对目标物体的位置进行预测。利用深度图像中的距离信息,能对目标物体的尺寸大小预先估计,减轻卷积神经网络的建模难度,提升网络的检测精度。

【技术实现步骤摘要】
一种基于RGB-D相机的卷积神经网络目标检测方法
本专利技术属于计算机视觉领域,具体涉及一种基于RGB-D相机的卷积神经网络目标检测方法。
技术介绍
传统目标检测算法利用人工设计的特征提取器提取图像特征,再使用SVM等机器学习算法,对特定区域内的特征进行分类,得到检测结果。但是由于人工设计的特征提取器具有一定的局限性,只能提取部分物体特征,难以对一个物体的特征进行充分提取,机器学习算法也难以学得物体的所有特征,导致整个算法的泛化能力比较差,识别的精度非常低,难以达到预期要求。从2012年起,深度学习在计算机领域内得到广泛的应用,解决了诸多计算机视觉领域的难题。尤其是卷积神经网络在图像分类、目标检测、语义分割等计算机视觉问题上表现突出。经过在大量图片数据集上的训练,卷积神经网络能够充分学习目标物体的特征,并将这些特征进行组合得到最后的检测结果。相较传统的目标检测算法,基于卷积神经网络的目标检测算法需要依赖于更大的图片数据集,所以通过卷积层提取出的特征更具有普适性,更能代表物体的通用特征。所以基于卷积神经网络的目标检测算法能达到传统算法难以达到的精度。而仅仅依赖于彩色图像的卷积神经网络算法在精度上的提升有限,在近几年增长已经趋于平缓。而在实际的目标检测系统中,需要利用深度传感器采集到的深度信息来辅助得到物体的空间坐标。所以本专利技术提出了一种利用深度信息来辅助目标检测的方法,提升目标检测算法的精度。
技术实现思路
本专利技术针对现有技术只利用卷积神经网络来检测目标物体的位置在检测精度上有一定的上限,提出了一种基于RGB-D相机的卷积神经网络目标检测方法。本专利技术提出了一种基于RGB-D相机的卷积神经网络目标检测方法,并利用soft-NMS对于传统的NMS(nonmaximumsuppression)算法进行了改进。本方法利用彩色相机和深度相机采集图片,利用RGB-D相机采集的深度图,将彩色图片输入目标检测网络,利用融合深度图信息,调整网络输出结果,达到高检测精度。本专利技术目的是利用视觉系统中经常会使用到的深度图像,改变目标检测只利用彩色图像的单一性,从而提高预测的精度。具体步骤如下:步骤(1):利用RGB-D相机获取彩色图像和深度图像使用RGB-D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像。步骤(2):利用卷积神经网络对于目标物体位置进行预测(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体。统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值。然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框。(b)将彩色图片输入卷积神经网络,产生预测结果参数。预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量。利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:其中Pw和Ph表示锚框的长和宽,和表示面积为1的预测框的长宽。经过以上步骤,将彩色图片输入到卷积神经网络,得到一系列的预测框,每个预测框包含置信值,中心坐标和长宽。选取一个阈值,将置信值低于该阈值的预测框除去,就能滤除大量不包含物体的预测结果。步骤(3):求解从深度值到目标物体尺寸的映射关系模型利用卷积神经网络得到目标物体中心坐标,将其映射到深度图上。得到物体中心点深度值,也就是物体与摄像头沿相机光轴的距离h。假设摄像头的焦距为f,目标物体的尺寸为l,目标物体在相机成像平面上的投影为s,即为尺度因子。根据相似三角形的性质,得到s如下:s与h之间存在反比关系,利用步骤(1)中得到的图库,得到多组(s,h)关系对,利用线性回归算法求得f与l的乘积值,得到一个从深度到物体尺寸的反比模型。步骤(4):产生带尺度的预测框利用步骤(2)中产生的目标物体的中心位置,找到深度图像上对应位置的深度信息,并利用步骤(3)中的模型关系得到尺度因子s。将s与步骤(2)中的面积为1的预测框的长宽相乘,得到带尺度的预测框。步骤(5):利用soft-NMS算法去除多余的预测框经过以上步骤,在同一个物体上容易产生多个带尺度的预测框。利用soft-NMS算法去除多余的带尺度的预测框,保留一个预测结果。设S1和S2分别为两个预测框的面积,ΔS为两个预测框重合的面积,定义IoU为:将预测结果中所有的预测框按置信值从大到小排序,依次选取目标框,并选取出排在当前预测框之后并且与当前预测框IoU大于设定阈值的预测框,认为他们都是对于同一物体的预测。对所有同一物体的预测框做加权平均,公式如下:其中boxj表示第j个预测框的参数,包括中心坐标和长宽。利用当前计算的box值作为最终预测框的信息,并去掉其他在当前这一物体上的预测框,就得到最终的预测结果。步骤(6)得到最终目标物体的空间位置再在深度图中找到目标框的位置,计算目标框中所有像素点的平均深度值,得到目标物体的深度。利用物体中心坐标和平均深度值,结合相机的内部参数,得到最终物体的空间位置。本专利技术的有益效果:本专利技术结合深度图像的信息,改变了目标检测网络中锚框的结构,使网络的预测更具有针对性,提升了网络的检测精度,具有重要的工程实际意义。附图说明图1为本专利技术流程图;图2为从深度值到目标物体尺寸的映射关系模型图。具体实施方式以下结合图1对本专利技术作进一步说明,本专利技术包括以下步骤:步骤(1):利用RGB-D相机获取彩色图像和深度图像使用RGB-D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像。步骤(2):利用卷积神经网络对于目标物体位置进行预测(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体。统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值。然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框。(b)将彩色图片输入卷积神经网络,产生预测结果参数。预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量。利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:其中Pw和Ph表示锚框的长和宽,和表示面积为1的预测框的长宽。经过以上步骤,将彩色图片输入到卷积神经网络,得到一系列的预测框,每个预测框包含置信值,中心坐标和长宽。选取一个阈值,将置信值低于该阈值的预测框除去,就能滤除大量不包含物体的预测结果。步骤(3):求解从深度值到目标物体尺寸的映射关系模型如图2所示,利用卷积神经网络得到目标物体中心坐标,将其映射到深度图上,得到物体中心点深度值,也就是物体与摄像头沿相机光轴的距离h。假设摄像头的焦距为f,目标物体的尺寸本文档来自技高网...

【技术保护点】
1.一种基于RGB‑D相机的卷积神经网络目标检测方法,其特征在于该方法的具体步骤是:步骤(1):利用RGB‑D相机获取彩色图像和深度图像使用RGB‑D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像;步骤(2):利用卷积神经网络对于目标物体位置进行预测(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体;统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值;然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框;(b)将彩色图片输入卷积神经网络,产生预测结果参数;预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量;利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:

【技术特征摘要】
1.一种基于RGB-D相机的卷积神经网络目标检测方法,其特征在于该方法的具体步骤是:步骤(1):利用RGB-D相机获取彩色图像和深度图像使用RGB-D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像;步骤(2):利用卷积神经网络对于目标物体位置进行预测(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体;统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值;然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框;(b)将彩色图片输入卷积神经网络,产生预测结果参数;预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量;利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:其中Pw和Ph表示锚框的长和宽,和表示面积为1的预测框的长宽;经过以上步骤,将彩色图片输入到卷积神经网络,得到一系列的预测框,每个预测框包含置信值,中心坐标和长宽;选取一个阈值,将置信值低于该阈值的预测框除去,就能滤除大量不包含物体的预测结果;步骤(3):求解从深度值到目标物体尺寸的映射关系模型利用卷积神经网络得到目标物体中心坐标,将其映射到深度图上;得到物体中心点深度值,也就是物体...

【专利技术属性】
技术研发人员:杨宇翔杜宇杰高明煜张敬
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1