The invention relates to the technical field of object classification and monocular image depth estimation in the field of computer vision. In order to present a model to enable it to introduce depth information to improve classification performance, and to test only RGB images without requiring real depth images collected by sensors as input, the invention is based on depth. The steps of object classification are as follows: (1) preprocessing the data set; (2) constructing the depth recovery model in the model; (3) training the two image classification models which receive RGB and depth image as input respectively; (4) constructing the final fusion model and training and testing; (5) training the fusion of step 4. The network migrates to the classified dataset of the natural image; (6) Comparing the classification effect and visualization of the model on two open datasets. The invention is mainly applied to object classification and monocular image depth estimation in the field of computer vision.
【技术实现步骤摘要】
基于深度恢复信息的物体分类方法
本专利技术涉及计算机视觉领域中的物体分类及单目图像深度估计
,尤其涉及一种基于生成式对抗网络的深度估计方法。
技术介绍
图像物体分类是计算机视觉研究中的基本问题,也是图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。由于彩色RGB图像是现实三维世界的二维投影,一副平面图像可能对应无数现实世界的实际场景。因此深度信息不可避免的丢失掉。深度信息能够反映2D图像所不具有的几何信息,对于三维场景重建、手势识别、人体姿态估计等有着重要意义[1]。RGB图像代表的2D信息与深度图代表的深度信息可以为物体分类任务提供不同的、相互补充的信息。对于人类来说,从单个图像推断潜在的三维结构并不困难,对于计算机视觉算法来说,由于没有具体可靠的特征如几何信息等可以直接利用,是一个极具挑战的任务。最近随着深度传感器的发展,出现了很多的公开的数据集,如NYUD2(纽约大学彩色-深度图数据集)、RGB-DObjectDataset(彩色-深度图物体数据集)、KITTI(卡尔斯鲁厄理工学院及丰田技术研究院智能驾驶数据集)等同时包含有RGB图像和深度图像,并且有很多工作说明了同时使用两种模态的图像建立识别模型,能够有效的提升物体分类效果[2]。当前基于深度信息的视觉研究方法主要分为两类:第一种是尽可能恢复真实场景的三维形状并且探索合适的三维特征描述符。很多工作通过点云特征如点密度特征、三维形状特征、三维水平特征和截断距离函数特征等将通常的二维的分类和检测模型拓展到三维,此类方法通常需要估计物体的三维形状以提高物体分类检测精度,或者利用上下文信息,如对 ...
【技术保护点】
1.一种基于深度恢复信息的物体分类方法,其特征是,步骤如下:(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;(2)构建模型中的深度恢复模型,采用卷积层‑激活函数层‑批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合,探究合适的损失函数、最优特征 ...
【技术特征摘要】
1.一种基于深度恢复信息的物体分类方法,其特征是,步骤如下:(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;(2)构建模型中的深度恢复模型,采用卷积层-激活函数层-批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合,探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法;(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集,采用两种方式重新训练融合之后的模型,一是直接用步骤四的模型测试自然图像数据集,记录分类结果;二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型,重新训练整个融合模型,再进行测试;(6)对比模型在两个公开数据集上图像分类的效果以及可视化。评估引入深度信息后对于模型性能的提升效果,并且对深度恢复之后的图像进行可视化。2.如权利要求1所述的基于深度恢复信息的物体分类方法,其特征是,一个实例中步骤具体细化如下:(1)对数据集进行预处理。采用公开的深度图像数据集RGB-DObjectDataset和普适物体识别数据集Cifar进行评估,其中前者是含有传感器采集的真实深度图像的RGB-D数据集,后者是不含有深度图像的自然图像数据集,RGB-DObjectDataset数据集采用深度传感器Kinect采集深度图像,深度图像的格式为16位无符号整数,距离单位为毫米,数据集含有51个类别、300个物品,采用摄像机拍摄,共207920帧,平均每个物品600张图像,从RGB-DObjectDataset数据集中等间隔5帧采样作为训练数据,最终训练集数目为约34000张成对图像,测试集6900张成对图像,采用10折交叉验证调整模型参数以及报告分类结果,原始训练集图像边长约在几十到一百多像素不等,训练时首先使用最邻近差值的方法归一化到224×224,不使用任何数据增强,送入网络进行训练,Cifar数据集只含有RGB图像,有10类,50000张训练数据和10000张测试集,图像尺寸为32×32,将所有图像大小统一调整为224×224,分别计算整个训练集中彩色图像和深度图像的平均值和标准差,彩色图像的均值为0.5,标准差为0.2,深度图像的均值为0.06,标准为0.02,将图像分别减去均值,再除以标准差,使得全部图像的像素值归一化到[0,1]之间,再输入模型进行训练;(2)构建模型中的深度恢复模型最后的模型由共15层卷积层的编码器,和3层反卷积层加1层卷积层构成的解码器组成,除了第一层卷积层采用7×7卷积核之外,其余的卷积层均使用卷积核大小为3,步长为1,扩充尺寸为1的参数结构;编码器由三个组成单元构成,第一个组成单元由卷积核大小为7×7,步长为2的卷积层以及3×3的最大池化层组成,分别完成两次下采样,第二个组成单元全部由6层输出特征通道数为64的3×3卷积层构成,再加上一层7×7的最大池化层最为下采样,第二个组成单元全部由输出通道数为128的3×3卷积层构成。并在此基础上增加跳跃连接结构,将编码器每相邻两层的输出特征图直接相加起来,连接起来...
【专利技术属性】
技术研发人员:侯春萍,管岱,杨阳,郎玥,章衡光,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。