当前位置: 首页 > 专利查询>天津大学专利>正文

基于深度恢复信息的物体分类方法技术

技术编号:18914357 阅读:55 留言:0更新日期:2018-09-12 03:13
本发明专利技术涉及计算机视觉领域中的物体分类及单目图像深度估计技术领域,为提出一种模型使之能够引入深度信息来提升分类性能,并且在测试时仅仅需要RGB图像而不需要传感器采集的真实深度图像作为输入,本发明专利技术,基于深度恢复信息的物体分类方法,步骤如下:(1)对数据集进行预处理;(2)构建模型中的深度恢复模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型;(4)构建最终的融合模型并进行训练和测试;(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集;(6)对比模型在两个公开数据集上图像分类的效果以及可视化。本发明专利技术主要应用于计算机视觉领域中的物体分类及单目图像深度估计场合。

Object classification method based on depth recovery information

The invention relates to the technical field of object classification and monocular image depth estimation in the field of computer vision. In order to present a model to enable it to introduce depth information to improve classification performance, and to test only RGB images without requiring real depth images collected by sensors as input, the invention is based on depth. The steps of object classification are as follows: (1) preprocessing the data set; (2) constructing the depth recovery model in the model; (3) training the two image classification models which receive RGB and depth image as input respectively; (4) constructing the final fusion model and training and testing; (5) training the fusion of step 4. The network migrates to the classified dataset of the natural image; (6) Comparing the classification effect and visualization of the model on two open datasets. The invention is mainly applied to object classification and monocular image depth estimation in the field of computer vision.

【技术实现步骤摘要】
基于深度恢复信息的物体分类方法
本专利技术涉及计算机视觉领域中的物体分类及单目图像深度估计
,尤其涉及一种基于生成式对抗网络的深度估计方法。
技术介绍
图像物体分类是计算机视觉研究中的基本问题,也是图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。由于彩色RGB图像是现实三维世界的二维投影,一副平面图像可能对应无数现实世界的实际场景。因此深度信息不可避免的丢失掉。深度信息能够反映2D图像所不具有的几何信息,对于三维场景重建、手势识别、人体姿态估计等有着重要意义[1]。RGB图像代表的2D信息与深度图代表的深度信息可以为物体分类任务提供不同的、相互补充的信息。对于人类来说,从单个图像推断潜在的三维结构并不困难,对于计算机视觉算法来说,由于没有具体可靠的特征如几何信息等可以直接利用,是一个极具挑战的任务。最近随着深度传感器的发展,出现了很多的公开的数据集,如NYUD2(纽约大学彩色-深度图数据集)、RGB-DObjectDataset(彩色-深度图物体数据集)、KITTI(卡尔斯鲁厄理工学院及丰田技术研究院智能驾驶数据集)等同时包含有RGB图像和深度图像,并且有很多工作说明了同时使用两种模态的图像建立识别模型,能够有效的提升物体分类效果[2]。当前基于深度信息的视觉研究方法主要分为两类:第一种是尽可能恢复真实场景的三维形状并且探索合适的三维特征描述符。很多工作通过点云特征如点密度特征、三维形状特征、三维水平特征和截断距离函数特征等将通常的二维的分类和检测模型拓展到三维,此类方法通常需要估计物体的三维形状以提高物体分类检测精度,或者利用上下文信息,如对象间的关系及对象与背景间的关系以提供对待识别物体的多视图理解。这种方法往往需要大量的较难获取的三维训练数据因此在实际应用中收到较大限制;第二种将深度值编码为二维图像,并与RGB彩色图像结合起来形成2.5D的数据。此类方法通常将深度图像编码为地面高度、重力角度和水平视察三种特征,与RGB图像一起作为模型的两个输入,分别从两幅成对的图像中提取不同的特征再进行融合,进而进行分类或者检测。此类方法借助于深度传感器的硬件设备来直接的获取深度信息,如利用激光雷达、Kinect(微软3D体感摄影机)等直接获取距离信息。由于深度传感器造价昂贵,因此从在绝大数现实场景下的图像分类模型仅只有RGB单一模态的输入,并且大多数计算机视觉数据集,如ImageNet(大规模视觉识别挑战竞赛)、PascalVOC(模式分析统计建模以及计算学习数据集)等也仅仅只含有RGB图像。在不使用深度传感器直接捕捉深度信息的情况下,如果我们能在2D的计算机视觉任务中有效的引入深度信息,可能会提升当前诸如物体分类、检测等的视觉任务的性能。图像分类任务依赖于对图像特征的恰当选择与提取。卷积神经网络(ConvolutionalNeuralNetwork,CNN)提供了一种端到端的学习模型,模型中的参数通过梯度下降方法进行训练,经过训练后的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类。较于传统的图像识别方法,CNN具有非常出色的特征提取和特征学习能力。1998年,Lecun等人提出的卷积神经网络LeNet成功第运用到了手写体数字的识别中,LeNet的提出为卷积神经网络在图像分类的应用方面引起了一阵研究热潮,并且为用于图像分类的CNN提供了一种通用的基本结构:即交替连接的卷积层和池化层搭配激活函数进行特征提取,最后连接全连接层的分类器进行分类和识别。本专利技术采用基于卷积神经网络的模型,利用深度信息完成对2D图像的分类任务,在两种公开数据集上进行评估,在准确度和泛化性上均有较好的表现。[1]田虎.单目图像的深度估计[D].北京邮电大学,2015.[2]WangA,CaiJ,LuJ,etal.MMSS:Multi-modalSharableandSpecificFeatureLearningforRGB-DObjectRecognition[C]//IEEEInternationalConferenceonComputerVision.IEEE,2015:1125-1133。
技术实现思路
为克服现有技术的不足,针对二维的图像分类问题,本专利技术旨在提出一种模型使之能够引入深度信息来提升分类性能,并且在测试时仅仅需要RGB图像而不需要传感器采集的真实深度图像作为输入。为此,本专利技术采用的技术方案是,基于深度恢复信息的物体分类方法,步骤如下:(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;(2)构建模型中的深度恢复模型,采用卷积层-激活函数层-批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合,探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法;(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集,采用两种方式重新训练融合之后的模型,一是直接用步骤四的模型测试自然图像数据集,记录分类结果;二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型,重新训练整个融合模型,再进行测试;(6)对比模型在两个公开数据集上图像分类的效果以及可视化。评估引入深度信息后对于模型性能的提升效果,并且对深度恢复之后的图像进行可视化。一个实例中步骤具体细化如下:(1)对数据集进行预处理。采用公开的深度图像数据集RGB-DObjectDataset和普适物体识别数据集Cifar进行评估,其中前者是含有传感器采集的真实深度图像的RGB-D数据集,后者是不含有深度图像的自然图像数据集,RGB-DObjectDataset数据集采用深度传感器Kinect采集深度图像,深度图像的格式为16位无符号整数,距离单位为毫米,数据集含有51个类别、300个物品,采用摄像机拍摄,共207920帧,平均每个物品600张图像,从RGB-DObjectDataset数据集中等间隔5帧采样作为训练数据,最终训练集数目为约34000张成对图像,测试集6900张成对图像,采用10折交叉验证调整模型参数以及报告分类结果,原始训练集图像边长约在几十到一百多像素不等,训练时首先使用最邻近差值的方法归一化到224×224,不使用任何数据增强,送入网络进行训练,Cifar数据集只含有RGB图像,有10类,50000张训练数据和10000张测试集,图像尺寸为32×32,将所有图本文档来自技高网
...

【技术保护点】
1.一种基于深度恢复信息的物体分类方法,其特征是,步骤如下:(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;(2)构建模型中的深度恢复模型,采用卷积层‑激活函数层‑批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合,探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法;(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集,采用两种方式重新训练融合之后的模型,一是直接用步骤四的模型测试自然图像数据集,记录分类结果;二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型,重新训练整个融合模型,再进行测试;(6)对比模型在两个公开数据集上图像分类的效果以及可视化。评估引入深度信息后对于模型性能的提升效果,并且对深度恢复之后的图像进行可视化。...

【技术特征摘要】
1.一种基于深度恢复信息的物体分类方法,其特征是,步骤如下:(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;(2)构建模型中的深度恢复模型,采用卷积层-激活函数层-批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合,探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法;(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集,采用两种方式重新训练融合之后的模型,一是直接用步骤四的模型测试自然图像数据集,记录分类结果;二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型,重新训练整个融合模型,再进行测试;(6)对比模型在两个公开数据集上图像分类的效果以及可视化。评估引入深度信息后对于模型性能的提升效果,并且对深度恢复之后的图像进行可视化。2.如权利要求1所述的基于深度恢复信息的物体分类方法,其特征是,一个实例中步骤具体细化如下:(1)对数据集进行预处理。采用公开的深度图像数据集RGB-DObjectDataset和普适物体识别数据集Cifar进行评估,其中前者是含有传感器采集的真实深度图像的RGB-D数据集,后者是不含有深度图像的自然图像数据集,RGB-DObjectDataset数据集采用深度传感器Kinect采集深度图像,深度图像的格式为16位无符号整数,距离单位为毫米,数据集含有51个类别、300个物品,采用摄像机拍摄,共207920帧,平均每个物品600张图像,从RGB-DObjectDataset数据集中等间隔5帧采样作为训练数据,最终训练集数目为约34000张成对图像,测试集6900张成对图像,采用10折交叉验证调整模型参数以及报告分类结果,原始训练集图像边长约在几十到一百多像素不等,训练时首先使用最邻近差值的方法归一化到224×224,不使用任何数据增强,送入网络进行训练,Cifar数据集只含有RGB图像,有10类,50000张训练数据和10000张测试集,图像尺寸为32×32,将所有图像大小统一调整为224×224,分别计算整个训练集中彩色图像和深度图像的平均值和标准差,彩色图像的均值为0.5,标准差为0.2,深度图像的均值为0.06,标准为0.02,将图像分别减去均值,再除以标准差,使得全部图像的像素值归一化到[0,1]之间,再输入模型进行训练;(2)构建模型中的深度恢复模型最后的模型由共15层卷积层的编码器,和3层反卷积层加1层卷积层构成的解码器组成,除了第一层卷积层采用7×7卷积核之外,其余的卷积层均使用卷积核大小为3,步长为1,扩充尺寸为1的参数结构;编码器由三个组成单元构成,第一个组成单元由卷积核大小为7×7,步长为2的卷积层以及3×3的最大池化层组成,分别完成两次下采样,第二个组成单元全部由6层输出特征通道数为64的3×3卷积层构成,再加上一层7×7的最大池化层最为下采样,第二个组成单元全部由输出通道数为128的3×3卷积层构成。并在此基础上增加跳跃连接结构,将编码器每相邻两层的输出特征图直接相加起来,连接起来...

【专利技术属性】
技术研发人员:侯春萍管岱杨阳郎玥章衡光
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1