一种基于对比学习的大规模图像在线聚类系统及方法技术方案

技术编号：28127312 阅读：26 留言：0更新日期：2021-04-19 11:43

本发明专利技术公开了一种基于对比学习的大规模图像在线聚类系统及方法，其系统包括：增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统；其方法包括：S1、对原始图像样本集进行增广操作，得到两组增广图像集；S2、构建总损失函数，将两组增广图像集作为训练集，采用梯度下降优化方法对大规模在线聚类系统进行训练；S3、采用训练完成的大规模在线聚类系统对待处理的图像样本集进行聚类处理，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果；本发明专利技术解决了现有方法无法实现大规模在线聚类，以及特征提取和数据聚类这两个阶段联系不紧密，容易出现误差累计的问题。容易出现误差累计的问题。容易出现误差累计的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的大规模图像在线聚类系统及方法

[0001]本专利技术涉及图像处理
，具体涉及一种基于对比学习的大规模图像在线聚类系统及方法。

技术介绍

[0002]聚类是一类基础的无监督机器学习方法，其基本思想是根据数据自身特点及数据间相似性，在不依赖外部标签的前提下，自动的将数据划分为若干个类别，使得每一类的数据具有相同特性，而不同类的数据间具有明显差别。聚类在现实生活中具有广泛的应用：例如，通过对用户消费行为的分析，将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等)，帮助商家针对性推荐和营销；通过对大量照片的分析，将无标签图像划分为若干类别(如自然风光、人物特写等)，帮助用户进行图像整理和进一步检索。
[0003]现有的聚类方法通常分为两个阶段实现，首先通过深度神经网络提取出原始数据的特征，之后通过K
‑
means等经典聚类方法对数据进行聚类。例如，一种现有迭代的方法，每次迭代首先选取两个最相似的数据点进行合并，之后根据当前的合并结果来优化特征提取网络，通过不断交替进行该过程实现数据聚类。另一种聚类方法是利用K
‑
means方法对数据进行聚类，将聚类结果作为伪标签，通过分类任务优化特征提取网络，交替进行该过程，不断提升所提取特征的表征能力，进而提升聚类效果。
[0004]现有聚类方法主要存在两个缺陷：一是现有方法无法实现大规模在线聚类，其中大规模指的是数据量大，在线指的是数据以流的形式呈现，即无法在一时间获取全部的数据信息，现有聚类方法依赖于数据...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的大规模图像在线聚类系统，其特征在于，包括：增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统；所述增广子系统用于对图像样本集进行增广操作，得到两组增广图像集；所述特征提取子系统包括：第一特征提取深度神经网络和第二特征提取深度神经网络；所述第一特征提取深度神经网络和第二特征提取深度神经网络的权值共享，其中第一特征提取深度神经网络用于对其中一组增广图像集进行特征提取；所述第二特征提取深度神经网络用于对另一组增广图像集进行特征提取；所述实例级别对比头子系统用于对提取的特征进行实例级别的对比学习，并对特征提取子系统进行优化；所述类别级别对比头子系统用于对提取的特征进行类别级别的对比学习，并对特征提取子系统的进行优化，实现在线聚类。2.一种基于对比学习的大规模图像在线聚类方法，其特征在于，包括以下步骤：S1、对原始图像样本集进行增广操作，得到第一组增广图像集和第二组增广图像集；S2、构建总损失函数，将第一组增广图像集和第二组增广图像集作为训练集，采用梯度下降优化方法对大规模在线聚类系统进行训练，得到训练完成的大规模在线聚类系统；S3、采用训练完成的大规模在线聚类系统对待处理的图像样本集进行聚类处理，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果。3.根据权利要求2所述的基于对比学习的大规模图像在线聚类方法，其特征在于，所述步骤S1包括以下分步骤：S11、对原始图像样本集X＝[x1,
…
,x
i
,
…
,x
N
]中每一张图像x
i
连续两次从裁剪缩放、水平翻转、颜色变换、转灰度图和高斯噪声中随机选择几种方式进行处理，得到每一张图像x
i
的两组增广策略T
a
、T
b
，其中，N为原始图像样本集中图像数量；S12、将每一张图像x
i
的两组增广策略T
a
、T
b
分别作用于对应的图像x
i
，得到两组增广图像集：像集：像集：和为图像x
i
的增广图像，T
a
(
·
)和T
b
(
·
)为表示增广操作。4.根据权利要求2所述的基于对比学习的大规模图像在线聚类方法，其特征在于，所述步骤S2中总损失函数为：其中，为总损失函数，为实例损失函数，为类别损失函数。5.根据权利要求4所述的基于对比学习的大规模图像在线聚类方法，其特征在于，所述实例损失函数为：
其中，为实例损失函数，N为原始图像样本集中图像数量，为第一特征向量，为第二特征向量，τ
I
为第一调整系数，g
I
(
·
)为实例级别对比头子系统采用的一个共享的两层全连接神经网络，i,j∈[1,N]...

【专利技术属性】
技术研发人员：彭玺，李云帆，杨谋星，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人