基于深层卷积网络的RGB-D图像的物体检测和语义分割方法技术

技术编号:15438017 阅读:857 留言:0更新日期:2017-05-26 04:00
本发明专利技术公开了基于深层卷积网络的RGB‑D图像的物体检测和语义分割方法,属于深度学习及机器视觉领域。本方法采用的技术方案中使用Faster‑RCNN替换原来缓慢的RCNN,Faster‑RCNN使用GPU不仅在提取特征方面拥有很快速度,而且在网络中能同时产生区域方案,能够实现整个训练过程是端到端的训练,同时使用FCN执行RGB‑D图像的语义分割,FCN使用GPU和深层卷积网络快速提取图像的深层特征,利用反卷积操作把图像卷积的深层特征和浅层特征进行融合,把图像的局部语义信息融入到全局语义信息中。

RGB D image deep convolutional neural network object detection and segmentation method based on Semantic

The invention discloses a RGB D image deep convolutional neural network object detection and segmentation method based on semantic, which belongs to the field of deep learning and machine vision. The technical proposal of the method by using Faster RCNN to replace the original slow RCNN, Faster RCNN using GPU not only has fast speed in feature extraction, but also produce regional programs in the network, can realize the whole process of training is end to end the training, with the use of FCN RGB implementation of the semantic D image the segmentation of FCN images using feature extraction in GPU deep and deep convolutional network, using deconvolution operation to perform the fusion of deep feature image convolution and shallow features, the local image semantic information into global semantic information.

【技术实现步骤摘要】
基于深层卷积网络的RGB-D图像的物体检测和语义分割方法
本专利技术属于深度学习及机器视觉领域,尤其涉及一种包含RGB-D图像的物体检测和语义分割方法,这在现实场景中具有非常广泛的应用,例如在监控视频中对行人进行检测与跟踪、无人机导航、自动驾驶等。
技术介绍
物体检测和语义分割是计算机视觉的两个重要研究领域,物体检测主要用于检测图像中物体的位置以及物体的类别,物体检测的主要有两个任务,一是找出物体的区域方案(RegionProposals),区域方案是一种预选边框,代表着一个物体在图像中的大致位置;二是对预选边框中的物体进行分类。语义分割解决的问题是对图像的每一个像素点赋以正确的标签,语义分割主要应用于场景理解并且存在很多潜在的应用。随着深层卷积神经网络的兴起,基于深层卷积神经网络的物体检测已成为目前最为盛行的检测算法,同样基于(RegionProposals)的语义分割已成为目前最为盛行的语义分割算法。一、比较盛行的用于产生RegionProposals的方法如下。传统的产生RegionProposals的方法有很多种,比如选择性搜索(SelectiveSearch),根据图像的不同颜色特征(如HSV颜色空间,Lab颜色空间等)合并超像素(具有相似特征的相邻像素块),一张图像在CPU模式下使用选择性搜索产生RegionProposals的时间为2s。多尺度组合分组(MCG),需要在多种缩放尺度下根据轮廓特征合并超像素产生区域候选方案,然后根据区域方案的面积、周长、边界强度等二维特征进行排名。边缘边框(EdgeBoxes),使用滑动窗口的方法产生区域方案,利用边缘信息(边框内的轮廓个数和与边框边缘重叠的轮廓个数),对RegionProposals进行排序。上面这些方法都是在CPU模式下进行。区域方案网络(RegionProposalsNetwork,简称RPN)能够在GPU模式下利用深层卷积神经网络提取图像特征的同时产生的RegionProposals。这使得物体检测的速度得到很大提高。二、快速的用于物体检测的区域深层卷积神经网络如下。随着快速的区域深层卷积神经网络在物体检测的速度和准确率上的明显提高,随后出现了很多更快的深层卷积神经网络,比如Faster-RCNN由两个网络组成,一个是RPN,用于产生RegionProposals,一个是快速的区域深层卷积神经网络,用于物体识别;YOLO把物体边框的选择与识别进行了结合,经过一次网络同步完成,但是YOLO对一幅图像产生的区域方案只有98个,导致物体边框的精确度比较低;SSD是在每一层特征图像上产生默认边框,优点是对于低分辨率的输入图像,也能产生高精确度的边框,缺点是检测系统对边框的大小很敏感,对于小物体,检测性能较差;R-FCN是一种基于FCN的物体检测网络,该网络舍弃了分类器层,把全连接层转变为卷积层,主干网络选择ResNet-101,并且提出了一种对物体位置敏感的映射方法来解决物体的平移可变性。三、语义分割网络如下。全卷积网络改编自卷积神经网络,它使用卷积层代替全连接层。为了实现图像的语义分割,FCN采用的方法是对深层特征图像执行一个或多个反卷积操作,使得深层特征图像的尺寸和原图像尺寸一样,然后利用Softmax分类器对每一个像素点进行分类,它实现了针对整张图片的端到端的像素到像素的语义分割,但反卷积操不能考虑到下采样过程中失真信息。SegNet不采取反卷积操作,而是对深层特征图像执行逐层上采样操作,同样使得深层特征图像的尺寸和原图像尺寸一样,然后利用Softmax分类器对每一个像素点进行分类,它考虑了图像在卷积过程因为下采样而失去的失真信息,但这样会带来很大的内存消耗。DeepLab模型在FCN之后添加一个条件随机场(ConditionalRandomField,简称CRF)的后处理操作,对分割后的图像在边缘细节方面进行优化,但是这个处理过程不是端到端的处理过程,为了解决这个问题,CRFasRNN把CRF和深度学习技术进行结合,使得整个网络结构是一个端到端的可训练的网络。以上这些研究工作主要集中在RGB彩色图像上,随着深度图像传感器的普及,例如IntelRealSense3DCamera、AsusXtionPROLIVE、MicrosoftKinect,越来越多的研究者都把研究重心转移到RGB-D图像上,例如物体检测、三维重建、机器人视觉、虚拟现实、图像分割等。图像分割主要集中在语义分割、实例分割、情景标签等领域。关于RGB-D图像的研究,其中最典型的是Gupta等人在RCNN的基础上充分使用了RGB-D图像研究物体检测,以及基于超像素特征的语义分割。物体检测过程中他们提出一种新颖的把深度图像转变为三通道图像的转变方法,并把这三通道命名为HHA,首先使用多尺度组合分组的方法产生区域方案,然后分别训练RGB和HHA的RCNN,合并这两个网络提取的特征,最后使用支持向量机对每个区域方案进行分类。语义分割过程中,基于超像素的深度特征(以地球为中心的姿态)和几何特征(大小、形状)利用支持向量机对超像素进行类别标签的预言,但是该方法非常缓慢,使用多尺度组合分组的方法产生区域方案是一种非常缓慢的过程,使用速度缓慢并且冗余的RCNN,训练分为多个流水线阶段,计算超像素的特征是一个复杂并缓慢的过程。
技术实现思路
为了解决上面这些问题,本方法采用的技术方案中使用Faster-RCNN替换原来缓慢的RCNN,Faster-RCNN使用GPU不仅在提取特征方面拥有很快速度,而且在网络中能同时产生区域方案,能够实现整个训练过程是端到端的训练,同时使用FCN执行RGB-D图像的语义分割,FCN使用GPU和深层卷积网络快速提取图像的深层特征,利用反卷积操作把图像卷积的深层特征和浅层特征进行融合,把图像的局部语义信息融入到全局语义信息中。为了实现上述目的,本专利技术采用的技术方案为基于深层卷积网络的RGB-D图像的物体检测和语义分割方法,关于物体检测和语义分割任务,本方法的内容在于:S1、通过RGB图像计算灰度图像,通过灰度图像和HHA图像合并成HHG图像。如图2所示,HHA三个通道的离散傅里叶变换的光学图像中,有最明显的区别是A通道的离散傅里叶变换,其体现在直流分量即横纵坐标轴的强度很微弱,故舍去这个通道。由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈,使用RGB图像的灰度图像替换HHA图像的中的A通道图像,所以使用融合RGB图像和深度图像的三通道图像为HHG图像。S2、使用Faster-RCNN作为HHG图像的物体检测系统。使用HHG图像作为网络的输入数据,通过Faster-RCNN中的RPN产生RegionProposals,通过Fast-RCNN提取RegionProposals的特征,然后对每一个RegionProposals进行分类,本方法的检测结果为,在HHG图像中用一个矩形框标出物体的位置和范围,并且标出该矩形框中物体的类别,如图1中物体检测图所示。S3、改变非极大值抑制(Non-MaximumSuppression,简称NMS)保留边框的机制,把边框周围的边框数量作为评价因素。如图3所示。具体的步骤如下:每一个边框是一个5元本文档来自技高网
...
基于深层卷积网络的RGB-D图像的物体检测和语义分割方法

【技术保护点】
基于深层卷积网络的RGB‑D图像的物体检测和语义分割方法,其特征在于:S1、通过RGB图像计算灰度图像,通过灰度图像和HHA图像合并成HHG图像;HHA三个通道的离散傅里叶变换的光学图像中,有最明显的区别是A通道的离散傅里叶变换,其体现在直流分量即横纵坐标轴的强度很微弱,故舍去这个通道;由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈,使用RGB图像的灰度图像替换HHA图像的中的A通道图像,所以使用融合RGB图像和深度图像的三通道图像为HHG图像;S2、使用Faster‑RCNN作为HHG图像的物体检测系统;使用HHG图像作为网络的输入数据,通过Faster‑RCNN中的RPN产生Region Proposals,通过Fast‑RCNN提取Region Proposals的特征,然后对每一个Region Proposals进行分类,本方法的检测结果为,在HHG图像中用一个矩形框标出物体的位置和范围,并且标出该矩形框中物体的类别;S3、改变非极大值抑制即NMS保留边框的机制,把边框周围的边框数量作为评价因素;具体的步骤如下:每一个边框是一个5元组(x1,y1,x2,y2,score),其中(x1,y1)是边框左上角的坐标,(x2,y2)是边框右下角的坐标,score是边框中包含物体的置信度;边框首先按照score值对每一个元组进行升序排序;按如下公式计算边框的交比并重叠率;...

【技术特征摘要】
1.基于深层卷积网络的RGB-D图像的物体检测和语义分割方法,其特征在于:S1、通过RGB图像计算灰度图像,通过灰度图像和HHA图像合并成HHG图像;HHA三个通道的离散傅里叶变换的光学图像中,有最明显的区别是A通道的离散傅里叶变换,其体现在直流分量即横纵坐标轴的强度很微弱,故舍去这个通道;由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈,使用RGB图像的灰度图像替换HHA图像的中的A通道图像,所以使用融合RGB图像和深度图像的三通道图像为HHG图像;S2、使用Faster-RCNN作为HHG图像的物体检测系统;使用HHG图像作为网络的输入数据,通过Faster-RCNN中的RPN产生RegionProposals,通过Fast-RCNN提取RegionProposals的特征,然后对每一个RegionProposals进行分类,本方法的检测结果为,在HHG图像中用一个矩形框标出物体的位置和范围,并且标出该矩形框中物体的类别;S3、改变非极大值抑制即NMS保留边框的机制,把边框周围的边框数量作为评价因素;具体的步骤如下:每一个边框是一个5元组(x1,y1,x2,y2,score),其中(x1,y1)是边框左上角的坐标,(x2,y2)是边框右下角的坐标,score是边框中包含物体的置信度;边框首先按照score值对每一个元组进行升序排序;按如下公式计算边框的交比并重叠率;其中,O(i,j)表示边框i和边框j的交比并重叠率,inter(i,j)表示边框i和边框j的重叠面积,area(i)表示边框i的面积,area(j)表示框j的面积;对于边框i,统计的数量Sumi,如果Sumi≥δ,舍去边框i,反之保留,n代表边框总数量,δ代表取舍阈值;S4、利用HHG图像和FCN完成RGB-D图像的语义分割任务;使用HHG图像作为FCN的输入数据,通过FCN提取语义特征并分类后,输出HHG图像中每一个像素点的类别标签,用标签值作为该像素点的像素值。2.根据权利要求1所述的基于深层卷积网络的RGB-D图像的物体检测和语义分割方法,其特征在于:Faster-RCNN的训练方式有三种:一是交替训练,二是近似联合训练,三是非近似联合训练;本方法使用的是交替训练方案,交替训练方案的思路是使区域方案网络和Fast-RCNN共享卷积层参数,微调属于各自网络的参数,这种方案首先训练区域方案网络,其次根据区域方案网络产生的区域方案训练Fast-RCNN模型,然后使用Fast-RCNN模型初始化区域方...

【专利技术属性】
技术研发人员:刘波邓广晖
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1