一种面向通用多视图对象聚类的对象视图蒸馏方法技术

技术编号:39050521 阅读:15 留言:0更新日期:2023-10-12 19:43
一种面向通用多视图对象聚类的对象视图蒸馏方法,收集若干样本的初始多视图数据;构建自编码器,教师网络,学生网络和知识蒸馏;编码器将样本的视图投影成潜在表示,并构造低维潜空间;利用多视图数据训练教师网络;利用多视图数据训练学生网络,并将知识蒸馏生成的暗知识作为一种新的自监督信号来指导学生网络进行微调;将整个原始多视图数据集馈送给整体网络,通过学生网络获得所有视图聚类的概率分布,对每个视图的概率进行加权和求和,得到最终的聚类结果;本发明专利技术使用知识蒸馏方法解决多视图聚类算法中伪标签对模型训练的错误引导以及纠正不准确的特征,显著提升聚类表现。显著提升聚类表现。显著提升聚类表现。

【技术实现步骤摘要】
一种面向通用多视图对象聚类的对象视图蒸馏方法


[0001]本专利技术属于人工智能以及图像聚类
,特别涉及一种面向通用多视图对象聚类的对象视图蒸馏方法。

技术介绍

[0002]现实世界中的数据大多是从不同的传感器收集的或从不同的特征提取器获得的。如果充分利用数据的不同模态或者图像的不同视角,就能更好地将数据建立视觉模型,从而达到分析或聚类的目的。多视图聚类是一种多阶段聚类方法,旨在将视觉对象分类为不同的聚类,以提高模型的有效性,并有利于后续任务,如对象检测和动作识别。为了实现这一目标,关键是探索不同视图之间的共同语义,并充分利用通过自我监督学习获得的伪标签。然而,多视图聚类在应用于多模态或多视图时存在一些缺点和限制。事实上,不同视图的样本包含更多的特征,而它们的分布受到噪声点和缺失数据的干扰。如果将传统表示的线性分离用作伪标签,则会导致在创建伪标签时过于自信(即,低熵预测),这反过来会误导模型训练,并最终导致不准确的聚类。因此,在特征学习过程中避免伪标签的破坏性影响并纠正不准确的特征是多视图聚类中的一项关键任务。
[0003]为了解决聚类中的伪标签问题,多阶段深度多视图聚类算法越来越引起广泛关注,但由于以下缺点,其性能受到限制:1)虽然伪标签可以为自我监督学习提供明确的指标,但当多视图实例用伪标签表示时,会忽略簇内和簇间关联,这降低了特征表示的性能并损害了多视图聚类结果。2)多视图数据样本包含不同的特征,而它们的分布受到多视图数据完整性的影响,所以在特征学习过程中,不准确的特征会影响其学习的准确性。/>
技术实现思路

[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种面向通用多视图对象聚类的对象视图蒸馏方法,以解决多视图聚类算法中伪标签对模型训练的错误引导以及纠正不准确的问题,提高多视图聚类效果。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种面向通用多视图对象聚类的对象视图蒸馏方法,包括如下步骤:
[0007]步骤1,每个样本的视图数据数量为V,收集N个样本的初始多视图对象数据;
[0008]步骤2,构建自编码器、教师网络、学生网络和知识蒸馏;所述自编码器由编码器和解码器组成,被所有视图所共享,编码器将每个样本的视图X1,X2,...,X
V
分别投影成潜在表示Z1,Z2,...,Z
V
,并构造低维潜空间;解码器将所述潜在表示重新映射为视图;
[0009]步骤3,利用自编码器输出的多视图数据训练教师网络;教师网络基于对比学习将学习到的高维特征线性地分离成伪标签;
[0010]步骤4,利用自编码器输出的多视图数据训练学生网络;学生网络用于提取多视图特征并将原始特征投影到不同层次的特征空间,通过最大化具有不同层次的特征空间的相互信息来学习公共语义;
[0011]步骤5,利用知识蒸馏,将教师网络生成的伪标签转换为暗知识(K维),暗知识将作为一种新的自监督信号,为学生网络提供优化方向并指导进行微调,直至学习完毕;
[0012]步骤6,将原始多视图数据集馈送给整体网络,学生网络分支中的预测器将获得所有视图聚类的概率分布,对每个视图的概率进行加权和求和,得到最终的聚类结果;所述整体网络由所述自编码器、知识蒸馏、教师网络和学生网络组成。
[0013]与现有技术相比,本专利技术的有益效果是:
[0014]在现阶段的多视图聚类中,多视图数据引入了更多的特征,因此过度自信的伪标签很难表示这些特征,伴随着更多的噪声,这导致现有的多阶段聚类方法很难适应这种多视图聚类场景。
[0015]本专利技术探索了知识蒸馏在多视图聚类中的应用,提出了一种多视图知识蒸馏技术,将过度自信的伪标签转化为暗知识,减少了虚假伪标签对多视图特征学习的影响。此外,使用对比方法来学习不同层次特征空间中的多视图语义。在低维潜在空间中,利用不变信息聚类直接最大化互信息,在高维子空间中,根据与负样本规模相关的不动点提高互信息的下界。这可以相应地提高多视图聚类的自监督学习多视图表示性能。
附图说明
[0016]图1是本专利技术流程示意图。
[0017]图2是本专利技术模型结构示意图。
[0018]图3是本专利技术教师网络结构图。
[0019]图4是本专利技术学生网络结构图。
[0020]图5是本专利技术聚类流程示意图。
具体实施方式
[0021]为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术实施方案作进一步详细描述。
[0022]本专利技术可能涉及到的概念与参数介绍如下:
[0023]一个样本通常有多种视图,这些视图可能完整,也可能不完整。给定一个数据集,它包含多个样本的多种视图数据,其中多种视图数据,指同一样本的不同角度视图,或同一样本同一角度的不同模态视图(例如RGB图像或深度图)。在多种视图数据中,很可能会有噪声点和缺失数据的干扰,针对这一现象,本专利技术面向通用多视图对象聚类的对象视图蒸馏方法,在伪标签指导训练过于自信时,仍能保持良好的聚类性能。
[0024]参考图1,本专利技术的完整流程如下:
[0025]步骤1,收集若干样本的初始多视图数据集,其中每个视图取N个样本,即初始多视图对象数据包括N个样本。每个样本的视图数据数量为V,v∈{1,...V}。D
v
表示第v个视图样本X
v
的维度,k是要聚类的类别数。
[0026]本专利技术的目标是将所有N个样本聚类到k个簇中。定义N个样本的集合{X1,X2,...,X
V
},其中X1表示样本中的视图数量为1,X2表示样本中的视图数量为2,X
v
表示样本中的视图数量为v。本步骤中,样本的视图可以为同一样本的不同角度视图,也可以为同一样本的同
一角度不同模态的视图。
[0027]步骤2,构建自编码器、教师网络、学生网络和知识蒸馏模块。
[0028]模型结构示意图如图2所示,由自编码器,教师网络,学生网络和知识蒸馏组成。自编码器由编码器和解码器组成,被所有视图所共享,编码器将每个样本的视图X1,X2,...,X
V
分别投影成潜在表示Z1,Z2,...,Z
V
,并构造低维潜空间;解码器将所述潜在表示重新映射为视图。其中视图v的编码器和解码器用f
v
和g
v
表示。编码器f1将X1投影成潜在表示Z1,第二组编码器f2将X2投影成潜在表示Z2,第v个视图的自编码器的结构定义为其中Fc
512
表示具有512个神经元的全连接神经网络,并且每层之后是ReLU层。
[0029]如图3所示,教师网络由对比模块构建一个独立的高维子空间,通过在该高维子空间中的对比学习间接改善互信息的下边界,并将学习到的高维特征线性地分离成伪标签。教师网络结构具有两个线性层,并且在中间添加了ReLU激活功能。
[0030]如图4所示,学生网络由学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向通用多视图对象聚类的对象视图蒸馏方法,其特征在于,包括如下步骤:步骤1,每个样本的视图数据数量为V,收集N个样本的初始多视图对象数据;步骤2,构建自编码器、教师网络、学生网络和知识蒸馏;所述自编码器由编码器和解码器组成,被所有视图所共享,编码器将每个样本的视图X1,X2,...,X
V
分别投影成潜在表示Z1,Z2,...,Z
V
,并构造低维潜空间;解码器将所述潜在表示重新映射为视图;步骤3,利用自编码器输出的多视图数据训练教师网络;步骤4,利用自编码器输出的多视图数据训练学生网络;步骤5,利用知识蒸馏,将教师网络生成的伪标签转换为暗知识,为学生网络提供优化方向并指导进行微调,直至学习完毕;步骤6,将原始多视图数据集馈送给整体网络,学生网络分支中的预测器将获得所有视图聚类的概率分布,对每个视图的概率进行加权和求和,得到最终的聚类结果。2.根据权利要求1所述面向通用多视图对象聚类的对象视图蒸馏方法,其特征在于,所述步骤1中,样本的视图为同一样本的不同角度视图,或同一样本的同一角度不同模态的视图。3.根据权利要求1所述面向通用多视图对象聚类的对象视图蒸馏方法,其特征在于,所述教师网络由对比模块构建一个独立的高维子空间,通过在该高维子空间中的对比学习间接改善互信息的下边界,并将学习到的高维特征线性地分离成伪标签;所述学生网络由学生网络wp、学生网络ws和对比模块组成,学生网络wp将学生网络ws的特征转换为概率分布,并将其用作蒸馏的软标签,对比模块构建一个独立的子空间,通过在该子空间中的对比学习捕获高维层次公共表示,以及在原始低维特征空间中的潜在表示X1,X2,...,X
V
成对地最大化互信息;所述知识蒸馏利用教师网络输出k维特征,通过调整温度和添加Softmax激活功能,将一维伪标签转换为k维暗知识,所述暗知识包含伪标签中不包含的基本层次信息,将最终蒸馏获得的暗知识用作基础真相,作为自监督信号指导特征学习。4.根据权利要求3所述面向通用多视图对象聚类的对象视图蒸馏方法,其特征在于,所述步骤3,构建深度自动编码器,通过最小化使自动编码器能够将异构多视图数据转换为集群友好的潜在表示,其中:为集群友好的潜在表示,其中:为自动编码器将异构多视图数据转换为潜在表示的评价指标,对于第v个视图,f
v
()是编码器,g
v
()是解码器,表示第n个特征向量,所学习的潜在表示被定义为Z
v
,表示第n个潜在表示,是Z
v
的重建视图;在低维层次结构的不同视图之间最大化互信息,称为不变信息聚类,该不变信息聚类表示为:表示为:表示最大化互信息,I代表互信息,表示所学习的第v

个视图的第n...

【专利技术属性】
技术研发人员:刘文静李海龙许志伟王钢
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1