当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于自监督和语义风格解耦的图像聚类方法技术

技术编号:30232198 阅读:29 留言:0更新日期:2021-09-29 10:07
本发明专利技术公开了一种基于自监督和语义风格解耦的图像聚类方法。该方法采用自监督编码器学习了一种语义风格的潜在表示,其中语义信息从图像风格中分离出来,可以直接用于聚类分配。为了实现这一目标,首先采用互信息最大化方法将相关信息嵌入到潜在表示中。然后还采用数据增强不变损失的方法,将潜在表示分解为类间语义部分和类内风格部分。此外,对潜在表示施加先验分布,以确保语义向量元素可以直接表示聚类概率。最后,引入了一个自监督损失来学习更全面的实例级特征。本发明专利技术可以在各种不同分布的数据集上提取具有判别性的特征表示,有效的提高了图像聚类问题的准确率。效的提高了图像聚类问题的准确率。效的提高了图像聚类问题的准确率。

【技术实现步骤摘要】
一种基于自监督和语义风格解耦的图像聚类方法


[0001]本申请涉及计算机视觉领域,尤其涉及一种自监督形式的图像聚类方法。

技术介绍

[0002]聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合,不同的对象归为不同的集合。与监督学习方法不同,聚类方法需要忽略真实标签。传统的方法,如K

means和谱聚类,需要手工提取特征,将数据转换成更有区别性的形式。在某些情况下,领域知识有助于确定更合适的特征提取策略。但对于许多高维问题如图像等,手工设计的特征提取方法很容易导致性能低下。
[0003]由于深度神经网络对非线性映射的强大学习能力,近年来提出了许多基于深度学习的聚类方法。许多研究试图将深度神经网络与各种聚类损失结合,以学习更有分辨力但低维的潜在表征。为了避免琐碎地学习一些任意表示,大多数方法还将重建或生成损失最小化,作为额外的正则化。然而,潜在表征的辨别能力与生成能力之间并没有实质的联系,这会减少与聚类的相关性,迫使潜在表示包含不必要的生成信息,使网络难以训练,进而影响聚类性能。最近自监督特征学习在图像识别任务中表现优异。其采用没有标签的形式,基于代理任务来指导网络学习好的表征。因此,可以自然地将自监督学习方法作为编码器并应用于图像聚类,获得更具有辨识性的特征。

技术实现思路

[0004]专利技术目的:在本文中,我们没有使用生成器来最小化重构损失,而是使用一个自监督编码器来最大化输入图像和它们的潜在表示之间的互信息,以保留鉴别信息,利用语义风格信息实现聚类。本专利技术提供了一种基于自监督和语义风格解耦的图像聚类方法。
[0005]技术方案:一种基于自监督和语义风格解耦的图像聚类方法,其特征在于,包括以下步骤:
[0006]步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Z
c
;Z
s
;Z
r
],记为图像X的潜在表示。
[0007]步骤二:引入分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。
[0008]步骤三:对输入图像进行数据增强,引入一个增强不变正则化项,利用Z
c
计算增强不变损失。
[0009]步骤四:对潜在表示Z施加一个先验分布P
Z
,利用鉴别器C计算先验分布P
Z
和潜在表示Z分布之间的一致性,作为分布鉴别损失。
[0010]步骤五:对输入图像X进行两次不同的数据增强,利用自监督编码器Q计算自监督损失。
[0011]步骤六:最小化分布鉴别损失,更新鉴别器C。
[0012]步骤七:在给定鉴别器C下,计算编码器损失,并最小化该损失更新分类器D和自监
督编码器Q。
[0013]步骤八:获取Z
c
中最大值所在的下标,作为该图片所属的类别。
[0014]进一步的,步骤一中,所述Z
c
为类间语义信息,表示输入图像X属于每个类的概率;Z
s
和Z
r
分别表示类内数据增强有关和无关的风格信息。Z
c
和Z
r
组合为Z
I
=(Z
c
;Z
r
),表示图像的实例级特征。
[0015]进一步的,所述Z
c
是一个softmax激活向量,所述Z
s
和Z
r
均为一个线性激活向量。
[0016]进一步的,步骤二中,所述互信息损失由JS散度计算,可近似为分类器D的二分类损失。具体表现为拼接输入图像X和潜在表示Z作为鉴别器D的输入,输入图像X及其自身的潜在表示Z是一个正样本,而输入图像X和其他图像的潜在表示是一个负样本。
[0017]进一步的,步骤三中,所述增强不变损失表现为给定一个数据增强函数T,原输入图像X和其数据增强版本T(X)经自监督编码器Q编码后,两者的类间语义信息Z
c
和Z
c

应相同,采用KL散度来衡量这两个近似分布带来的信息损失。
[0018]进一步的,所述数据增强函数T包括几何变换和光度变换。
[0019]进一步的,步骤四中,所述分布鉴别损失由生成分布(Z
c
;Z
s
)和先验分布P
Z
之间的Wasserstein distance计算,先验分布P
Z
具体表现在Z
c
上施加One

Hot分布且在Z
s
上施加Gaussian分布。
[0020]进一步的,步骤五中,所述自监督损失由归一化温度尺度下的交叉熵损失(NT

xent)计算,NT

xent中的特征向量项由Z
I
=(Z
c
;Z
r
)表示。
[0021]进一步的,步骤六和七中鉴别器C、分类器D和自监督编码器Q的更新采用随机梯度下降方法。
[0022]进一步的,步骤七中编码器损失为四个损失的加权和,包括互信息、增强不变、鉴别器和自监督损失。
[0023]有益效果:本专利技术提供了一种用于图像聚类的深度学习方法,相比较现有技术,针对某一张图片,采用自监督编码器学习到实例级别的特征表示。同时,将该特征解耦为语义和风格两部分,增强了与特征与聚类的相关性,提高聚类性能。下面的实施例表明:该专利技术可以在聚类中有效学习具有变换不变性的高级特征。此外,该专利技术所提出的方法几乎超过了几个公共数据集上的最新方法。
附图说明
[0024]图1为本专利技术的方法流程图;
[0025]图2为本专利技术的算法框架;
[0026]图3为本专利技术与其他方法的比较;
具体实施方式
[0027]下面结合附图与具体实施方式对本专利技术作进一步详细说明:
[0028]本实施例提供一种用于基于自监督和语义风格解耦,且用于Pendigits和HAR数据集图像聚类的方法,通过将图片通过自监督编码器得到语义风格并解耦,分析语义特征即可得到良好的聚类效果。
[0029]该方法的流程如图1所示,算法框架如图2所示
[0030]步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Z
c
;Z
s
;Z
r
],记为图像X的潜在表示。
[0031]步骤二:利用分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。
[0032]步骤三:对输入图像X进行数据增强,引入一个增强不变正则化项,利用Z
c
计算增强不变损失。
[0033]步骤四:对潜在表示Z施加一个先验分布P
Z
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督和语义风格解耦的图像聚类方法,其特征在于包括以下八个步骤:步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Z
c
;Z
s
;Z
r
],记为图像X的潜在表示。步骤二:利用分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。步骤三:对输入图像进行数据增强,引入一个增强不变正则化项,利用Z
c
计算增强不变损失。步骤四:对潜在表示Z施加一个先验分布P
Z
,利用鉴别器C计算先验分布P
Z
和潜在表示Z分布之间的一致性,作为分布鉴别损失。步骤五:对输入图像X进行两次不同的数据增强,利用自监督编码器Q计算自监督损失。步骤六:最小化分布鉴别损失,更新鉴别器C。步骤七:在给定鉴别器C下,计算编码器损失,并最小化该损失更新分类器D和自监督编码器Q。步骤八:获取Z
c
中最大值所在的下标,作为该图片所属的类别。2.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤一中,所述Z
c
为类间语义信息,表示输入图像X属于每个类的概率;Z
s
和Z
r
分别表示类内数据增强有关和无关的风格信息。Z
c
和Z
r
组合为Z
I
=(Z
c
;Z
r
),表示图像的实例级特征。3.根据权利要求2所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:所述Z
c
是一个softmax激活向量,所述Z
s
和Z
r
均为一个线性激活向量。4.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤二中,所述互信息损失由JS散度计算,可近似为分类器...

【专利技术属性】
技术研发人员:张宇米思娅陈嘉顺
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1