System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于角度预测预训练的半监督的RGB-D物体分类方法技术_技高网

一种基于角度预测预训练的半监督的RGB-D物体分类方法技术

技术编号:40705898 阅读:5 留言:0更新日期:2024-03-22 11:05
本发明专利技术公开了一种基于角度预测预训练的半监督的RGB‑D物体分类方法,包括:对RGB和深度图像的旋转角度预测器进行训练,得到通过无监督训练的网络模型;将旋转角度预测器的特征提取部分作为特征提取器;构建RGB和深度图像的对象类别预测器;利用带标签的图像训练对象类别预测器,得到RGB图像或深度图像半监督分类的结果;然后利用RGB和深度图像中的互补信息融合对象类别预测器的预测结果,对特征提取器的参数进行微调,使得旋转角度预测器的特征提取部分适应基于RGB图像、深度图像或RGB‑D图像的物体分类任务。本发明专利技术通过深度互学习融合两种模态特定对象类别预测器以提高性能,经过相互学习,RGB和深度图像的物体分类准确率都得到了显著的提升。

【技术实现步骤摘要】

本专利技术涉及计算机模式识别和图像分类,尤其涉及一种基于角度预测预训练的半监督的rgb-d物体分类方法。


技术介绍

1、随着三维感知技术的发展,三维信息在物体分类任务中得到了广泛应用。物体的3d信息通常转换为深度图,其中每个像素反映了相机和物体表面点之间的距离。这使得我们能够同时使用rgb图像和深度图来进行对象分类,这通常被称为rgb-d对象分类任务。目前流行的方法是机器学习,尤其是深度学习,它依赖于大量标注的rgb和深度图像对。然而,通常只有少量带注释的数据可用。因此,同时利用有标签和无标签的成对rgb-d数据来训练分类器至关重要,可以通过半监督rgb-d对象分类(semi-supervised rgb-d objectcategorization,ssroc)算法来解决。该任务的关键是发现rgb图像和深度图像之间的互补信息,并充分利用这些信息进行模型训练,使rgb-d分类的性能优于基于单模态的分类。

2、当前,代表性的ssroc算法有:在文献[yanhua cheng,xin zhao,kaiqi huang,andtieniu tan.semi-supervised learning for rgb-d object recognition[c].in 201422nd international conference on pattern recognition,pages 2377-2382,2014.]中提出的rgb-d物体识别的半监督学习、文献[yanhua cheng,xin zhao,kaiqi huang,andtieniu tan.semi-supervised learning and feature evaluation for rgb-d objectrecognition[j].computer vision and image understanding,139:149-160.]中提出的半监督学习与特征评估和文献[yanhua cheng,xin zhao,rui cai,zhiwei li,kaiqihuang,and yong rui.semi-supervised multi355 modal deep learning for rgb-dobject recognition[c].in proceedings of the twenty-fifth international jointconference on artificial intelligence,ijcai’16,page 33453351.aaaipress,2016.]中提出的基于半监督multi355模态深度学习。在特征提取中,半监督学习与特征评估直接使用cnn-spm-rnn,rgb-d物体识别的半监督学习和基于半监督multi355模态深度学习采用预训练方案来利用未标记数据。rgb-d物体识别的半监督学习采用无监督卷积-递归神经网络进行特征提取,并从rgb-d图像中提取固定的树结构。树最初是用来描述场景图像的,物体图像通常缺乏复杂的结构信息,因此它不能很好地适应物体图像。基于半监督multi355模态深度学习使用所有的rgb-d对训练一个重建网络,并基于重建网络构建分类器。重建网络的输出被认为与其输入数据相似,因此重建网络从训练数据中学习一些可能对分类有用的隐藏信息。然而,无法解释可以学习哪种信息以及对象分类将如何从这些信息中受益。在决策阶段,所有工作采用协同训练方案。基于半监督multi355模态深度学习同时采用类别分类器和属性分类器来选择置信度高的样本生成伪标签,并扩大已标记训练数据集。然而,协同训练要求两个特定模态的分类器选择训练样本以扩大对方的训练集,而一种模态的分类器可能无法很好地适应选择的另一种模态的样本。这通常会降低协同训练的效果。

3、近年来,自监督学习(self-supervised learning,ssl)被提出用于解决半监督学习任务。ssl依赖于一些伪装任务,以无监督的方式从未标记的数据样本中学习某些信息。学习到的信息被证明对各种下游任务(如目标分割或目标分类)是有益的。在文献[tingchen,simon kornblith,mohammad norouzi,and geoffrey e hinton.a simpleframework for contrastive learning of visual representations[c].inproceedings of 2008international conference on machine learning(icml),pages1597-1607.aaaipress,2020.]中提出对比学习是一种有效的伪装任务,它通过图像的颜色失真、几何失真、裁剪和滤波来增强数据集,最小化相似样本(来自同一图像的增强图像)之间的距离,最大化不相似样本(来自不同图像的增强图像)之间的距离。由于深度图像存在颜色失真,使得对比学习难以应用于深度图像。文献[spyros gidaris,praveer singh,andnikos komodakis.unsupervised representation learning by predicting imagerotations[c].corr,abs/1803.07728,2018.]中提出的基于图像旋转预测的无监督表示学习揭示了丰富的结构信息可以通过简单地将图像旋转到预先指定的角度并训练分类器来预测角度来学习。这是因为模型必须知道图像中物体的形状、轮廓和方向才能实现准确的角度预测。我们认为这种结构信息对物体分类至关重要。此外,在文献[ying zhang,taoxiang,timothy m.hospedales,and huchuan lu.deep mutual learning[c].inproceedings of 2018ieee/cvf conference on computer vision and patternrecognition(cvpr),pages 4320-4328.ieee,2018.]中提出的深度相互学习表明,通过使每个分类器模拟其他分类器的预测结果,可以进一步提高多个分类器的分类精度。这是因为预测结果由对象属于每个类别的概率组成,这为分类器提供了异常的类间相似性,而训练标签的one-hot向量无法反映这一点。


技术实现思路

1、本专利技术的目的在于针对现有技术的不足,提供了一种基于角度预测预训练的半监督的rgb-d物体分类方法。

2、为实现上述目的,本专利技术提供了一种基于角度预测预训练的半监督的rgb-d物体分类方法,包括以下步骤:

3、(1)对有标签和无标签的rgb-d图像分别进行90度、180度和270度的旋转,并分别对rgb图像和深度图像的旋转角度预测器进行训练,得到通过无监督训练的网络模型;

4、(2)固定步骤(1)中每个旋转角度预测器的特征提取部分,将特征提取部分作为特征提本文档来自技高网...

【技术保护点】

1.一种基于角度预测预训练的半监督的RGB-D物体分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于角度预测预训练的半监督的RGB-D物体分类方法,其特征在于,所述步骤(1)包括如下子步骤:

3.根据权利要求2所述的基于角度预测预训练的半监督的RGB-D物体分类方法,其特征在于,所述步骤(2)包括如下子步骤:

4.根据权利要求3所述的基于角度预测预训练的半监督的RGB-D物体分类方法,其特征在于,所述步骤(3)包括如下子步骤:

【技术特征摘要】

1.一种基于角度预测预训练的半监督的rgb-d物体分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于角度预测预训练的半监督的rgb-d物体分类方法,其特征在于,所述步骤(1)包括如下子步骤:

3.根据权...

【专利技术属性】
技术研发人员:张剑何凯昊俞俊
申请(专利权)人:杭州师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1