当前位置: 首页 > 专利查询>四川大学专利>正文

基于图文预训练模型的图像聚类方法技术

技术编号:39662846 阅读:7 留言:0更新日期:2023-12-11 18:25
本发明专利技术提供了基于图文预训练模型的图像聚类方法,属于图像处理技术领域,该方法包括:根据获取的

【技术实现步骤摘要】
基于图文预训练模型的图像聚类方法


[0001]本专利技术属于图像处理
,尤其涉及一种基于图文预训练模型的图像聚类方法


技术介绍

[0002]作为机器学习的经典任务之一,图像聚类有着数十年的发展历史

早起的图像聚类工作主要集中于设计聚类策略,从给定的原始图像数据中发现数据类簇,其中最为经典的是提出的
k

means
聚类方法

尽管早期的聚类方法在一些简单的数据上取得了良好的结果,但在面临现实世界中维度和复杂度更高的线性不可分图像数据时效果并不尽如人意

为了更好地处理复杂数据,深度聚类方法被提出,其利用神经网络强大的特征抽取能力,从原始数据中首先提取出更具判别性的低维表征,从而大幅提升图像聚类效果

例如,一种基于自编码器的图像聚类方法,通过设计聚类目标来优化深度神经网络,同时实现了特征抽取和数据聚类

由此可见,图像聚类方法和数据表征的质量密切相关

近年来,对比学习范式在无监督表示学习中取得了巨大的进展,其在未知图像类别标签的情况下,通过数据增广构造自监督信号,帮助模型提取紧凑的低维表征

得益于对比学习的成功,一系列基于对比学习的图像聚类方法在近些年被提出,将图像聚类的性能提升到了一个新的高度,例如,同时在特征矩阵的行空间和列空间进行对比学习,从而实现了面向大规模在线数据的图像聚类

最近,无监督表示学习逐渐从单一的图像模态发展到图像

文本多模态,通过从互联网中上亿的图文数据对中学习,图文预训练模型有着强大的表示学习能力,其在图文检索

图像分类等下有任务中取得了优异的性能

然而,对于如何将图文预训练模型用于图像聚类,目前还未有相关深入研究

[0003]其中,
CLIP
图文预训练模型能够在未知每张图像所述类别的情况下对图像进行分类

具体的,给定待分类的
K
个类别的类别名称
(
例如“Cat”、“Dog”、“Car”等
)

CLIP
图文预训练模型首先构造例如“Aphoto of【CLASS】”的提示词,其中
【CLASS】
为类别名称

将构造好的提示词送入预训练好的文本编码器,便可得到
K
个文本表征进一步将待分类的图像送入预训练好的图像编码器,得到图像表征
v。
计算图像表征于
K
个类别文本表征之间的相似性,经过
Softmax
归一化后,
CLIP
图文预训练模型可得到对于图像的分类结果

[0004]尽管上述方案能够实现图像分类,其可行性依赖于对类别名称的先验知识,也即需要事先给定例如“Cat”、“Dog”、“Car”等的待分类类别名称

然而,这些类别名称的先验信息在无监督的图像聚类场景中无法获取,因此该范式无法实现图像聚类

因此,在未知类别名称的图像聚类任务下,直接可行的基于
CLIP
图文预训练模型的图像聚类方法,是利用其预训练好的图像编码器提取图像特征,进一步使用传统
k

means
方法实现图像聚类

然而,该方案未能利用具有紧凑语义信息的文本模态,导致聚类性能受限


技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种基于图文预训练模型的图像聚类
方法,解决了在未知类别名称的情况下不能有效利用图文预训练模型的文本模态,以导致图像聚类效果差以及计算开销大的问题

[0006]为了达到以上目的,本专利技术采用的技术方案为:
[0007]本方案提供一种基于图文预训练模型的图像聚类方法,包括以下步骤:
[0008]S1、
根据获取的
WordNet
所有名词,利用图文预训练模型选取文本模态的侯选词,为每张图像检索所述侯选词,构建其在文本模态对应的表征;
[0009]S2、
根据图像表征及其在文本模态对应的表征,利用图文模态互蒸馏的方法得到图像聚类结果

[0010]本专利技术的有益效果是:本专利技术通过将
WordNet
中的所有名词划分到图像的语义中心,并通过选取与检索具有代表性的名词来为每张图像构造其在文本模态中对应的表征,以及利用邻居的聚类指派一致性来协同图像和文本模态,通过在图文表征上额外训练聚类网络来进一步提升图像聚类的性能

本专利技术能够在未知类别名称的情况下,有效利用图文预训练模型的文本模态,从中挖掘语义信息,提升图像表征的判别性,从而提升图像聚类效果,且无需额外的模型训练和模型调优

所提出的范式应当在提升性能的前提下,尽可能保留低计算开销这一优点,从而提升所提出方案的可用性

[0011]进一步地,所述步骤
S1
包括以下步骤:
[0012]S101、
分别获取已预训练的图文预训练模型的图像编码器和文本编码器
、WordNet
中的所有名词以及待聚类的图像;
[0013]S102、
将待聚类图像输入至图像编码器,得到图像表征,将
WordNet
中的所有名词输入至文本编码器,得到文本表征;
[0014]S103、
根据图像表征,利用
k

means
聚类算法计算得到图像语义中心;
[0015]S104、
根据文本表征和图像语义中心的相似性,将所有名词划分到
k
个图像语义中心,其中,第
i'
个名词属于第
l
个聚类和图像语义中心的概率
p(l|t
i'
)
的表达式如下:
[0016][0017]其中,
sim(
·
)
表示余弦相似性,
t
i'
表示第
i'
个名词经文本编码器后得到的文本表征,
s
l
表示第
l
个图像语义中心,
s
j
表示第
j
个图像语义中心,
k
表示图像语义中心个数;
[0018]S105、
保留每个图像语义中心概率最高的5个名词,并将其作为文本模态的侯选词;
[0019]S106、
通过为每张图像检索所述侯选词,构建其在文本模态对应的表征

[0020]上述进一步方案的有益效果是:本专利技术通过构建文本模态,旨在为每张图像构建一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于图文预训练模型的图像聚类方法,其特征在于,包括以下步骤:
S1、
根据获取的
WordNet
所有名词,利用图文预训练模型选取文本模态的侯选词,为每张图像检索所述侯选词,构建其在文本模态对应的表征;
S2、
根据图像表征及其在文本模态对应的表征,利用图文模态互蒸馏的方法得到图像聚类结果
。2.
根据权利要求1所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S1
包括以下步骤:
S101、
分别获取已预训练的图文预训练模型的图像编码器和文本编码器
、WordNet
中的所有名词以及待聚类的图像;
S102、
将待聚类图像输入至图像编码器,得到图像表征,将
WordNet
中的所有名词输入至文本编码器,得到文本表征;
S103、
根据图像表征,利用
k

means
聚类算法计算得到图像语义中心;
S104、
根据文本表征和图像语义中心的相似性,将所有名词划分到
k
个图像语义中心,其中,第
i'
个名词属于第
l
个聚类和图像语义中心的概率
p(l|t
i'
)
的表达式如下:其中,
sim(
·
)
表示余弦相似性,
t
i'
表示第
i'
个名词经文本编码器后得到的文本表征,
s
l
表示第
l
个图像语义中心,
s
j
表示第
j
个图像语义中心,
k
表示图像语义中心个数;
S105、
保留每个图像语义中心概率最高的5个名词,并将其作为文本模态的侯选词;
S106、
通过为每张图像检索所述侯选词,构建其在文本模态对应的表征
。3.
根据权利要求2所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S103
中图像语义中心的表达式如下:
k

max{N/300,K*3}
其中,
s
l
表示第
l
个图像语义中心,
v
i
表示第
i
张图像经图像编码器后得到的图像表征,表示
v
i
属于第
l
个聚类,为指示函数,当且仅当
v
i
属于第
l
个聚类时为1,其余情况为0,
N
表示样本点的个数,
K
表示目标聚类个数
。4.
根据权利要求2所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S106
中文本模态对应的表征的表达式如下:中文本模态对应的表征的表达式如下:其中,表示第
i
张图像对应的文本模态中的表征,
M
表示经筛选后所保留的所有侯选名词的个数,表示第
j'
个侯选名词和第
i
张图像的相似性,表示组成文本模态的第
j'
个侯选名词,
v
i
表示第
i
张图像经图像编码器后得到的图像表征,表示控制检索的平滑程度,表示组成文本模态的第
k'
个侯选名词
。5.
根据权利要求1所述的基于图文预训练模型的图像聚类方法,其特征在于,所述步骤
S2
包括以下步骤:
S201、
判断是否不选择额外的聚类网络,若是,则进入步骤
S202
,否则,则选择额外的聚类网络,并进入步骤
S203

S202、
将文本表征和图像表征进行拼接,并利用
k

means
聚类算法得到图像聚类结果;
S203、
分别构建文本聚类网络和图像聚类网络,为每个图像表征在图像模态寻找
50
个最近邻居,为文本表征在文本模态寻找
50
个最近邻居;...

【专利技术属性】
技术研发人员:彭玺李云帆胡鹏
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1