一种基于角度预测预训练的半监督的RGB-D物体分类方法技术

技术编号：40705898 阅读：5 留言：0更新日期：2024-03-22 11:05

本发明专利技术公开了一种基于角度预测预训练的半监督的RGB‑D物体分类方法，包括：对RGB和深度图像的旋转角度预测器进行训练，得到通过无监督训练的网络模型；将旋转角度预测器的特征提取部分作为特征提取器；构建RGB和深度图像的对象类别预测器；利用带标签的图像训练对象类别预测器，得到RGB图像或深度图像半监督分类的结果；然后利用RGB和深度图像中的互补信息融合对象类别预测器的预测结果，对特征提取器的参数进行微调，使得旋转角度预测器的特征提取部分适应基于RGB图像、深度图像或RGB‑D图像的物体分类任务。本发明专利技术通过深度互学习融合两种模态特定对象类别预测器以提高性能，经过相互学习，RGB和深度图像的物体分类准确率都得到了显著的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机模式识别和图像分类，尤其涉及一种基于角度预测预训练的半监督的rgb-d物体分类方法。

技术介绍

1、随着三维感知技术的发展，三维信息在物体分类任务中得到了广泛应用。物体的3d信息通常转换为深度图，其中每个像素反映了相机和物体表面点之间的距离。这使得我们能够同时使用rgb图像和深度图来进行对象分类，这通常被称为rgb-d对象分类任务。目前流行的方法是机器学习，尤其是深度学习，它依赖于大量标注的rgb和深度图像对。然而，通常只有少量带注释的数据可用。因此，同时利用有标签和无标签的成对rgb-d数据来训练分类器至关重要，可以通过半监督rgb-d对象分类(semi-supervised rgb-d objectcategorization,ssroc)算法来解决。该任务的关键是发现rgb图像和深度图像之间的互补信息，并充分利用这些信息进行模型训练，使rgb-d分类的性能优于基于单模态的分类。

2、当前，代表性的ssroc算法有：在文献[yanhua cheng,xin zhao,kaiqi huang,andtieniu tan.semi-supervised learning for rgb-d object recognition[c].in 201422nd international conference on pattern recognition,pages 2377-2382,2014.]中提出的rgb-d物体识别的半监督学习、文献[yanhua cheng,xin zhao,kaiqi h

3、近年来，自监督学习(self-supervised learning,ssl)被提出用于解决半监督学习任务。ssl依赖于一些伪装任务，以无监督的方式从未标记的数据样本中学习某些信息。学习到的信息被证明对各种下游任务(如目标分割或目标分类)是有益的。在文献[tingchen,simon kornblith,mohammad norouzi,and geoffrey e hinton.a simpleframework for contrastive learning of visual representations[c].inproceedings of 2008international conference on machine learning(icml),pages1597-1607.aaaipress,2020.]中提出对比学习是一种有效的伪装任务，它通过图像的颜色失真、几何失真、裁剪和滤波来增强数据集，最小化相似样本(来自同一图像的增强图像)之间的距离，最大化不相似样本(来自不同图像的增强图像)之间的距离。由于深度图像存在颜色失真，使得对比学习难以应用于深度图像。文献[spyros gidaris,praveer singh,andnikos komodakis.unsupervised representation learning by predicting imagerotations[c].corr,abs/1803.07728,2018.]中提出的基于图像旋转预测的无监督表示学习揭示了丰富的结构信息可以通过简单地将图像旋转到预先指定的角度并训练分类器来预测角度来学习。这是因为模型必须知道图像中物体的形状、轮廓和方向才能实现准确的角度预测。我们认为这种结构信息对物体分类至关重要。此外，在文献[ying zhang,taoxiang,timothy m.hospedales,and huchuan lu.deep mutual learning[c].inproceedings of 2018ieee/cvf conference on computer vision and patternrecognition(cvpr),pages 4320-4328.ieee,2018.]中提出的深度相互学习表明，通过使每个分类器模拟其他分类器的预测结果，可以进一步提高多个分类器的分类精度。这是因为预测结果由对象属于每个类别的概率组成，这为分类器提供了异常的类间相似性，而训练标签的one-hot向量无法反映这一点。

技术实现思路

1、本专利技术的目的在于针对现有技术的不足，提供了一种基于角度预测预训练的半监督的rgb-d物体分类方法。

2、为实现上述目的，本专利技术提供了一种基于角度预测预训练的半监督的rgb-d物体分类方法，包括以下步骤：

3、(1)对有标签和无标签的rgb-d图像分别进行90度、180度和270度的旋转，并分别对rgb图像和深度图像的旋转角度预测器进行训练，得到通过无监督训练的网络模型；

4、(2)固定步骤(1)中每个旋转角度预测器的特征提取部分，将特征提取部分作为特征提本文档来自技高网...

【技术保护点】

1.一种基于角度预测预训练的半监督的RGB-D物体分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于角度预测预训练的半监督的RGB-D物体分类方法，其特征在于，所述步骤(1)包括如下子步骤：

3.根据权利要求2所述的基于角度预测预训练的半监督的RGB-D物体分类方法，其特征在于，所述步骤(2)包括如下子步骤：

4.根据权利要求3所述的基于角度预测预训练的半监督的RGB-D物体分类方法，其特征在于，所述步骤(3)包括如下子步骤：

【技术特征摘要】

1.一种基于角度预测预训练的半监督的rgb-d物体分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于角度预测预训练的半监督的rgb-d物体分类方法，其特征在于，所述步骤(1)包括如下子步骤：

3.根据权...

【专利技术属性】
技术研发人员：张剑，何凯昊，俞俊，
申请(专利权)人：杭州师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人