【技术实现步骤摘要】
基于图文预训练模型的图像聚类方法
[0001]本专利技术属于图像处理
,尤其涉及一种基于图文预训练模型的图像聚类方法
。
技术介绍
[0002]作为机器学习的经典任务之一,图像聚类有着数十年的发展历史
。
早起的图像聚类工作主要集中于设计聚类策略,从给定的原始图像数据中发现数据类簇,其中最为经典的是提出的
k
‑
means
聚类方法
。
尽管早期的聚类方法在一些简单的数据上取得了良好的结果,但在面临现实世界中维度和复杂度更高的线性不可分图像数据时效果并不尽如人意
。
为了更好地处理复杂数据,深度聚类方法被提出,其利用神经网络强大的特征抽取能力,从原始数据中首先提取出更具判别性的低维表征,从而大幅提升图像聚类效果
。
例如,一种基于自编码器的图像聚类方法,通过设计聚类目标来优化深度神经网络,同时实现了特征抽取和数据聚类
。
由此可见,图像聚类方法和数据表征的质量密切相关
。
近年来,对比学习范式在无监督表示学习中取得了巨大的进展,其在未知图像类别标签的情况下,通过数据增广构造自监督信号,帮助模型提取紧凑的低维表征
。
得益于对比学习的成功,一系列基于对比学习的图像聚类方法在近些年被提出,将图像聚类的性能提升到了一个新的高度,例如,同时在特征矩阵的行空间和列空间进行对比学习,从而实现了面向大规模在线数据的图像聚类
。
最近,无监督表示学习逐渐从单一 ...
【技术保护点】
【技术特征摘要】
1.
一种基于图文预训练模型的图像聚类方法,其特征在于,包括以下步骤:
S1、
根据获取的
WordNet
所有名词,利用图文预训练模型选取文本模态的侯选词,为每张图像检索所述侯选词,构建其在文本模态对应的表征;
S2、
根据图像表征及其在文本模态对应的表征,利用图文模态互蒸馏的方法得到图像聚类结果
。2.
根据权利要求1所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S1
包括以下步骤:
S101、
分别获取已预训练的图文预训练模型的图像编码器和文本编码器
、WordNet
中的所有名词以及待聚类的图像;
S102、
将待聚类图像输入至图像编码器,得到图像表征,将
WordNet
中的所有名词输入至文本编码器,得到文本表征;
S103、
根据图像表征,利用
k
‑
means
聚类算法计算得到图像语义中心;
S104、
根据文本表征和图像语义中心的相似性,将所有名词划分到
k
个图像语义中心,其中,第
i'
个名词属于第
l
个聚类和图像语义中心的概率
p(l|t
i'
)
的表达式如下:其中,
sim(
·
)
表示余弦相似性,
t
i'
表示第
i'
个名词经文本编码器后得到的文本表征,
s
l
表示第
l
个图像语义中心,
s
j
表示第
j
个图像语义中心,
k
表示图像语义中心个数;
S105、
保留每个图像语义中心概率最高的5个名词,并将其作为文本模态的侯选词;
S106、
通过为每张图像检索所述侯选词,构建其在文本模态对应的表征
。3.
根据权利要求2所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S103
中图像语义中心的表达式如下:
k
=
max{N/300,K*3}
其中,
s
l
表示第
l
个图像语义中心,
v
i
表示第
i
张图像经图像编码器后得到的图像表征,表示
v
i
属于第
l
个聚类,为指示函数,当且仅当
v
i
属于第
l
个聚类时为1,其余情况为0,
N
表示样本点的个数,
K
表示目标聚类个数
。4.
根据权利要求2所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S106
中文本模态对应的表征的表达式如下:中文本模态对应的表征的表达式如下:其中,表示第
i
张图像对应的文本模态中的表征,
M
表示经筛选后所保留的所有侯选名词的个数,表示第
j'
个侯选名词和第
i
张图像的相似性,表示组成文本模态的第
j'
个侯选名词,
v
i
表示第
i
张图像经图像编码器后得到的图像表征,表示控制检索的平滑程度,表示组成文本模态的第
k'
个侯选名词
。5.
根据权利要求1所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S2
包括以下步骤:
S201、
判断是否不选择额外的聚类网络,若是,则进入步骤
S202
,否则,则选择额外的聚类网络,并进入步骤
S203
;
S202、
将文本表征和图像表征进行拼接,并利用
k
‑
means
聚类算法得到图像聚类结果;
S203、
分别构建文本聚类网络和图像聚类网络,为每个图像表征在图像模态寻找
50
个最近邻居,为文本表征在文本模态寻找
50
个最近邻居;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。