基于深层卷积网络的RGB-D图像的物体检测和语义分割方法技术

技术编号：15438017 阅读：857 留言：0更新日期：2017-05-26 04:00

本发明专利技术公开了基于深层卷积网络的RGB‑D图像的物体检测和语义分割方法，属于深度学习及机器视觉领域。本方法采用的技术方案中使用Faster‑RCNN替换原来缓慢的RCNN，Faster‑RCNN使用GPU不仅在提取特征方面拥有很快速度，而且在网络中能同时产生区域方案，能够实现整个训练过程是端到端的训练，同时使用FCN执行RGB‑D图像的语义分割，FCN使用GPU和深层卷积网络快速提取图像的深层特征，利用反卷积操作把图像卷积的深层特征和浅层特征进行融合，把图像的局部语义信息融入到全局语义信息中。

RGB D image deep convolutional neural network object detection and segmentation method based on Semantic

The invention discloses a RGB D image deep convolutional neural network object detection and segmentation method based on semantic, which belongs to the field of deep learning and machine vision. The technical proposal of the method by using Faster RCNN to replace the original slow RCNN, Faster RCNN using GPU not only has fast speed in feature extraction, but also produce regional programs in the network, can realize the whole process of training is end to end the training, with the use of FCN RGB implementation of the semantic D image the segmentation of FCN images using feature extraction in GPU deep and deep convolutional network, using deconvolution operation to perform the fusion of deep feature image convolution and shallow features, the local image semantic information into global semantic information.

全部详细技术资料下载

【技术实现步骤摘要】
基于深层卷积网络的RGB-D图像的物体检测和语义分割方法
本专利技术属于深度学习及机器视觉领域，尤其涉及一种包含RGB-D图像的物体检测和语义分割方法，这在现实场景中具有非常广泛的应用，例如在监控视频中对行人进行检测与跟踪、无人机导航、自动驾驶等。
技术介绍
物体检测和语义分割是计算机视觉的两个重要研究领域，物体检测主要用于检测图像中物体的位置以及物体的类别，物体检测的主要有两个任务，一是找出物体的区域方案(RegionProposals)，区域方案是一种预选边框，代表着一个物体在图像中的大致位置；二是对预选边框中的物体进行分类。语义分割解决的问题是对图像的每一个像素点赋以正确的标签，语义分割主要应用于场景理解并且存在很多潜在的应用。随着深层卷积神经网络的兴起，基于深层卷积神经网络的物体检测已成为目前最为盛行的检测算法，同样基于(RegionProposals)的语义分割已成为目前最为盛行的语义分割算法。一、比较盛行的用于产生RegionProposals的方法如下。传统的产生RegionProposals的方法有很多种，比如选择性搜索(SelectiveSearch)，根据图像的不同颜色特征(如HSV颜色空间，Lab颜色空间等)合并超像素(具有相似特征的相邻像素块)，一张图像在CPU模式下使用选择性搜索产生RegionProposals的时间为2s。多尺度组合分组(MCG)，需要在多种缩放尺度下根据轮廓特征合并超像素产生区域候选方案，然后根据区域方案的面积、周长、边界强度等二维特征进行排名。边缘边框(EdgeBoxes)，使用滑动窗口的方法产生区域方案，...
基于深层卷积网络的RGB-D图像的物体检测和语义分割方法

【技术保护点】
基于深层卷积网络的RGB‑D图像的物体检测和语义分割方法，其特征在于：S1、通过RGB图像计算灰度图像，通过灰度图像和HHA图像合并成HHG图像；HHA三个通道的离散傅里叶变换的光学图像中，有最明显的区别是A通道的离散傅里叶变换，其体现在直流分量即横纵坐标轴的强度很微弱，故舍去这个通道；由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈，使用RGB图像的灰度图像替换HHA图像的中的A通道图像，所以使用融合RGB图像和深度图像的三通道图像为HHG图像；S2、使用Faster‑RCNN作为HHG图像的物体检测系统；使用HHG图像作为网络的输入数据，通过Faster‑RCNN中的RPN产生Region Proposals，通过Fast‑RCNN提取Region Proposals的特征，然后对每一个Region Proposals进行分类，本方法的检测结果为，在HHG图像中用一个矩形框标出物体的位置和范围，并且标出该矩形框中物体的类别；S3、改变非极大值抑制即NMS保留边框的机制，把边框周围的边框数量作为评价因素；具体的步骤如下：每一个边框是一个5元组(x1,y1,x...

【技术特征摘要】
1.基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：S1、通过RGB图像计算灰度图像，通过灰度图像和HHA图像合并成HHG图像；HHA三个通道的离散傅里叶变换的光学图像中，有最明显的区别是A通道的离散傅里叶变换，其体现在直流分量即横纵坐标轴的强度很微弱，故舍去这个通道；由于RGB三个通道的离散傅里叶变换的光学图像都相似而且直流分量的强度也强烈，使用RGB图像的灰度图像替换HHA图像的中的A通道图像，所以使用融合RGB图像和深度图像的三通道图像为HHG图像；S2、使用Faster-RCNN作为HHG图像的物体检测系统；使用HHG图像作为网络的输入数据，通过Faster-RCNN中的RPN产生RegionProposals，通过Fast-RCNN提取RegionProposals的特征，然后对每一个RegionProposals进行分类，本方法的检测结果为，在HHG图像中用一个矩形框标出物体的位置和范围，并且标出该矩形框中物体的类别；S3、改变非极大值抑制即NMS保留边框的机制，把边框周围的边框数量作为评价因素；具体的步骤如下：每一个边框是一个5元组(x1,y1,x2,y2,score)，其中(x1,y1)是边框左上角的坐标，(x2,y2)是边框右下角的坐标，score是边框中包含物体的置信度；边框首先按照score值对每一个元组进行升序排序；按如下公式计算边框的交比并重叠率；其中，O(i,j)表示边框i和边框j的交比并重叠率，inter(i,j)表示边框i和边框j的重叠面积，area(i)表示边框i的面积，area(j)表示框j的面积；对于边框i，统计的数量Sumi，如果Sumi≥δ，舍去边框i，反之保留，n代表边框总数量，δ代表取舍阈值；S4、利用HHG图像和FCN完成RGB-D图像的语义分割任务；使用HHG图像作为FCN的输入数据，通过FCN提取语义特征并分类后，输出HHG图像中每一个像素点的类别标签，用标签值作为该像素点的像素值。2.根据权利要求1所述的基于深层卷积网络的RGB-D图像的物体检测和语义分割方法，其特征在于：Faster-RCNN的训练方式有三种：一是交替训练，二是近似联合训练，三是非近似联合训练；本方法使用的是交替训练方案，交替训练方案的思路是使区域方案网络和Fast-RCNN共享卷积层参数，微调属于各自网络的参数，这种方案首先训练区域方案网络，其次根据区域方案网络产生的区域方案训练Fast-RCNN模型，然后使用Fast-RCNN模型初始化区域方...

【专利技术属性】
技术研发人员：刘波，邓广晖，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人