一种伪标签无监督数据训练方法、装置、设备及介质制造方法及图纸

技术编号:39157217 阅读:12 留言:0更新日期:2023-10-23 15:01
本发明专利技术提供一种伪标签无监督数据训练方法、装置、设备及介质,方法包括使用CLIP预训练模型对图像库中的无标注图像数据进行样本初步标注;根据初步标注结果和类别置信度,对不同的类别挑选样本进行人工标注得到人工标注图像数据;利用人工标注图像数据,通过交叉熵损失函数对分类模型进行有监督训练,将训练后的分类模型复制成两份,一份作为教师网络模型,另一份作为学生网络模型;通过教师网络模型为无标注图像数据生成伪标签,计算基于聚类伪标签的自适应阈值,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并使用过滤后的伪标签训练学生网络模型。本发明专利技术的优点:能够降低人工标注成本,便于生成多样化、且高质量的伪标签。的伪标签。的伪标签。

【技术实现步骤摘要】
一种伪标签无监督数据训练方法、装置、设备及介质


[0001]本专利技术涉及计算机
,特别涉及一种伪标签无监督数据训练方法、装置、设备及介质。

技术介绍

[0002]随着硬件设备的发展和信息时代的数据爆炸,深度学习得到了迅猛发展,深度神经网络已经广泛应用于各个领域,且表现出良好的性能;但深度神经网络的卓越性能很大程度上依赖于具有足够标注数据的监督训练。
[0003]信息技术的发展使得数据的获取和存储变得越来越容易,数据量也越来越大;这些数据集往往具有大规模、低质量、长尾的特点,传统的监督学习方法已经难以满足数据训练的需求;例如,申请号202210829253.4的中国专利技术专利公开的一种基于多模态数据的重平衡长尾图像数据分类方法,第一个阶段使用CLIP大规模预训练模型中的图像和文本编码器,通过对比学习的方法建立两个模态数据的关联性,增强类内图像与文本互信息的同时扩大类间差异性;第二个阶段冻结图像与文本编码器,并在图像编码器后增加了一个多层感知机,使用类平衡采样策略和重平衡损失函数训练少量周期,进一步改善模型对于尾部类的分类能力;因该分类方法需要在前期对训练数据全部进行人工标注,不仅费力且人工标注成本高,特别是当数据分布呈现极度不均衡的长尾现象时,简单使用人工标注是无法获得多样的、类别覆盖完整的标注信息。
[0004]当然,现有技术中也存在无监督学习方法,无监督学习是一项经典机器学习方法,其目的是从未标记的数据中发现隐藏的模式和结构,但是无监督学习方法无法生成多样化,且高质量的伪标签。因此,亟需提供一种能够降低人工标注成本,且能够生成多样化、高质量的伪标签的训练方法。

技术实现思路

[0005]本专利技术要解决的技术问题,在于提供一种伪标签无监督数据训练方法、装置、设备及介质,能够在降低人工标注成本的基础上,生成多样化、且高质量的伪标签。
[0006]第一方面,本专利技术提供了一种伪标签无监督数据训练方法,所述训练方法包括:
[0007]步骤S1、使用CLIP预训练模型对图像库中的无标注图像数据进行样本初步标注,生成初步标注结果;
[0008]步骤S2、根据初步标注结果和类别置信度,对不同的类别挑选样本,并对挑选的样本进行人工标注得到人工标注图像数据;
[0009]步骤S3、利用人工标注图像数据,通过交叉熵损失函数对分类模型进行有监督训练,将训练后的分类模型复制成两份,且一份作为教师网络模型,另一份作为学生网络模型;
[0010]步骤S4、通过教师网络模型为无标注图像数据生成伪标签,计算基于聚类伪标签的自适应阈值,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并使用过滤后的
伪标签训练学生网络模型。
[0011]进一步的,所述步骤S1具体包括:
[0012]根据图像的类别信息,对各个类别均构造类别文本;
[0013]计算CLIP模型的图像特征抽取器抽取的图像特征与文本特征抽取器抽取的文本特征的余弦相似性,并对不同类别的余弦相似性使用SoftMax归一化函数得到对应的伪标签,具体计算如下式(1)和式(2):
[0014][0015][0016]在式(1)和式(2)中,S
i
表示图像特征与文本特征的余弦相似性,f
vis
表示CLIP模型的图像特征抽取器,f
text
表示CLIP模型的文本特征抽取器,x表示输入的图像,t
i
表示构造的第i类的类别文本,l
i
表示生成的伪标签中第i类所对应的置信度,k表示分类的类别数量。
[0017]进一步的,所述步骤S4具体包括:
[0018]步骤S41、利用教师网络模型对图像库中的无标注图像数据抽取图像特征,并对抽取的图像特征进行无监督K

Means聚类,从而得到若干个聚类中心;
[0019]步骤S42、随机挑选无标注图像数据,利用教师网络模型对挑选的无标注图像数据抽取的图像特征,并计算抽取的图像特征与各个聚类中心的欧式距离,利用抽取的图像特征与各个聚类中心的欧式距离计算出自适应阈值;
[0020]步骤S43、通过教师网络模型对挑选的无标注图像数据生成伪标签,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并将满足过滤条件的伪标签添加到标注样本中;
[0021]步骤S44、利用标注样本中的标注数据对学生网络模型进行有监督训练,同时使用移动平均方法更新教师网络模型的权重;
[0022]步骤S45、重复执行步骤S41至步骤S44,直到满足设定的迭代次数。
[0023]进一步的,在所述步骤S42中,所述计算抽取的图像特征与各个聚类中心的欧式距离,利用抽取的图像特征与各个聚类中心的欧式距离计算出自适应阈值具体为:
[0024]步骤S41中得到的聚类中心记为以下式(3):
[0025]C={c1,c2,...,c
n
}
ꢀꢀꢀ
(3)
[0026]通过教师网络模型的分类器获取各个聚类中心对应的伪标签,记为以下式(4):
[0027]p={p1,p2,...,p
n
}
ꢀꢀꢀ
(4)
[0028]抽取的图像特征与各个聚类中心的欧式距离如以下式(5):
[0029]d
i
=||v

c
i
||2ꢀꢀꢀ
(5)
[0030]将聚类提供的伪标签记作各个聚类中心伪标签及抽取的图像特征与各个聚类中心的欧式距离的加权和,具体如以下式(6):
[0031][0032]计算自适应阈值,具体如以下式(7):
[0033][0034]其中,式(3)

式(7)中,n表示聚类中心个数,c
i
表示第i个聚类中心,p
i
表示第i个聚类中心对应的伪标签,d
i
表示抽取的图像特征与第i个聚类中心的欧式距离,v表示抽取的图像特征,表示第t轮迭代的第i类的自适应阈值,λ1为用于平衡自适应阈值变化的参数,b表示一批数据的数据个数,q
i
表示第i个类别所对应的伪标签值;
[0035]在所述步骤S44中,所述使用移动平均方法更新教师网络模型的权重具体为:采用如下式(8)更新教师网络模型:
[0036]θ
teacher
=λ2.θ
teacher
+(1

λ2).θ
student
ꢀꢀꢀ
(8)
[0037]其中,θ
teacher
表示教师网络模型的权重,λ2为用于控制教师网络模型权重更新快慢的超参数,θ
student
表示学生网络模型的权重。
[0038]进一步的,所述步骤S2中,在对不同的类别挑选样本时,各个类别所挑选的样本数量相等;
[0039]在所述步骤S3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种伪标签无监督数据训练方法,其特征在于,所述训练方法包括:步骤S1、使用CLIP预训练模型对图像库中的无标注图像数据进行样本初步标注,生成初步标注结果;步骤S2、根据初步标注结果和类别置信度,对不同的类别挑选样本,并对挑选的样本进行人工标注得到人工标注图像数据;步骤S3、利用人工标注图像数据,通过交叉熵损失函数对分类模型进行有监督训练,将训练后的分类模型复制成两份,且一份作为教师网络模型,另一份作为学生网络模型;步骤S4、通过教师网络模型为无标注图像数据生成伪标签,计算基于聚类伪标签的自适应阈值,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并使用过滤后的伪标签训练学生网络模型。2.根据权利要求1所述一种伪标签无监督数据训练方法,其特征在于,所述步骤S1具体包括:根据图像的类别信息,对各个类别均构造类别文本;计算CLIP模型的图像特征抽取器抽取的图像特征与文本特征抽取器抽取的文本特征的余弦相似性,并对不同类别的余弦相似性使用SoftMax归一化函数得到对应的伪标签,具体计算如下式(1)和式(2):体计算如下式(1)和式(2):在式(1)和式(2)中,S
i
表示图像特征与文本特征的余弦相似性,f
vis
表示CLIP模型的图像特征抽取器,f
text
表示CLIP模型的文本特征抽取器,x表示输入的图像,t
i
表示构造的第i类的类别文本,l
i
表示生成的伪标签中第i类所对应的置信度,k表示分类的类别数量。3.根据权利要求1所述一种伪标签无监督数据训练方法,其特征在于,所述步骤S4具体包括:步骤S41、利用教师网络模型对图像库中的无标注图像数据抽取图像特征,并对抽取的图像特征进行无监督K

Means聚类,从而得到若干个聚类中心;步骤S42、随机挑选无标注图像数据,利用教师网络模型对挑选的无标注图像数据抽取的图像特征,并计算抽取的图像特征与各个聚类中心的欧式距离,利用抽取的图像特征与各个聚类中心的欧式距离计算出自适应阈值;步骤S43、通过教师网络模型对挑选的无标注图像数据生成伪标签,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并将满足过滤条件的伪标签添加到标注样本中;步骤S44、利用标注样本中的标注数据对学生网络模型进行有监督训练,同时使用移动平均方法更新教师网络模型的权重;步骤S45、重复执行步骤S41至步骤S44,直到满足设定的迭代次数。4.根据权利要求1所述一种伪标签无监督数据训练方法,其特征在于,在所述步骤S42中,所述计算抽取的图像特征与各个聚类中心的欧式距离,利用抽取的图像特征与各个聚类中心的欧式距离计算出自适应阈值具体为:
步骤S41中得到的聚类中心记为以下式(3):C={c1,c2,...,c
n
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)通过教师网络模型的分类器获取各个聚类中心对应的伪标签,记为以下式(4):p={p1,p2,...,p
n
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)抽取的图像特征与各个聚类中心的欧式距离如以下式(5):d
i
=||v

c
i
||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)将聚类提供的伪标签记作各个聚类中心伪标签及抽取的图像特征与各个聚类中心的欧式距离的加权和,具体如以下式(6):计算自适应阈值,具体如以下式(7):其中,式(3)

式(7)中,n表示聚类中心个数,c
i
表示第i个聚类中心,p
i
表示第i个聚类中心对应的伪标签,d
i
表示抽取的图像特征与第i个聚类中心的欧式距离,v表示抽取的图像特征,表示第t轮迭代的第i类的自适应阈值,λ1为用于平衡自...

【专利技术属性】
技术研发人员:覃智泉陈骞纪荣嵘周奕毅
申请(专利权)人:厦门大学南强智视厦门科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1