当前位置: 首页 > 专利查询>清华大学专利>正文

一种泛监督表示学习方法及装置制造方法及图纸

技术编号:35412652 阅读:20 留言:0更新日期:2022-11-03 11:09
本发明专利技术公开了一种泛监督表示学习方法及装置,该方法包括:获取训练数据;其中,训练数据包括图像数据和图像数据对应的标签信息;将训练数据输入视觉网络模型进行特征提取得到图像数据对应的第一空间特征,并基于第一空间特征映射得到第二空间特征,以及基于第二空间特征映射得到第三空间特征;计算第一空间特征和第二空间特征的第一损失函数值,并根据标签信息计算第三空间特征的第二损失函数值;基于第一损失函数值和第二损失函数值更新所述视觉网络模型的参数,以得到训练后的视觉网络模型。本发明专利技术能够使得学习到的表示不仅能在训练数据集上取得优越的性能,还能在其他视觉任务上获得不错的迁移性能,可以实现图像检测和分割。割。割。

【技术实现步骤摘要】
一种泛监督表示学习方法及装置


[0001]本专利技术涉及计算机视觉与机器学习
,尤其涉及一种泛监督表示学习方法及装置。

技术介绍

[0002]在深度学习技术的发展中,如何从数据中学习到一个好的表示是一项重要且具有挑战性的任务,也是很多研究领域的基本步骤,如词嵌入学习和深度度量学习。在计算机视觉中,现存的方法一般采用监督学习或非监督学习算法,利用深度神经网络从原始图像中挖掘有意义的表示信息,再利用这些学习到的表示来进行多种下游任务,如图像分类、语义分割以及目标检测等。
[0003]作为无监督学习的一个重要分支,自监督学习旨在通过多个不同的代理任务来自动生成标签用来训练模型表示。现有的方法包括基于图像恢复、图像旋转预测等。然而,自监督方法只能取得相对较差的分类性能,因为它们放弃了对大量标记数据的利用,而这些数据可以为表示提供足够的高级语义信息。全监督深度表示学习算法往往能取得较好的结果。在ImageNet数据集上,全监督算法能够取得超过80%的准确率,体现出了这些方法的优越性。全监督学习聚焦于网络结构的设计、数据增强以及损失函数的结构。首先,近些年提出的ResNet和视觉Transformer等基础模型在各种数据集上都提高了相应的基准结果。对于数据处理,相关的研究旨在充分利用原始图像来或者更高的训练效率以及更好的泛化性能,如广泛利用的数据增强方法Mixup以及许多数据增强算法等。对于损失函数的设计,分类损失函数一般基于交叉熵损失函数,包括ArcFace和CosFace。除此之外,一些损失函数在深度度量学习中用来构建更具有判别性的嵌入空间。其中,常见的三元组损失函数和代理损失函数都在多种视觉任务中获得了应用。
[0004]然而,近期的研究工作不仅关注算法在单一数据集上的表现,更加看重表示学习的迁移性能。例如,研究者们将ImageNet上预训练后的模型迁移到目标检测以及分割等任务的数据集上来测试相应的性能。近些年,对比学习算法证明了无监督学习方法同样能学到有意义的数据表示并在下游任务上取得比全监督学习更强的迁移性能。例如,经过MoCo算法预训练的模型在监测和分割任务上已经超过了全监督学习模型。通常意义上来讲,对比学习旨在减小同样输入图像的不同数据增强结果在表示空间的距离,并增大不同输入图像的数据增强结果的距离。因此,对比学习倾向于学习到通用的实例级别的信息,而全监督学习更关注与任务相关的类别级别的信息。在这种情况下,全监督学习和无监督学习对于学习到的表示具有不同的优势,这也很自然地产生了一个问题:是否有可能结合自监督学习和全监督学习来获得更好的模型。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术的目的在于提出一种泛监督表示学习方法,将原始图像进行两个随
机的数据增强,数据增强的方式包括随机裁剪、随机高斯噪声以及随机翻转等操作,进而使用共享的神经网络模型处理数据增强的结果,得到相应的数据表征;使用对称的自监督对比损失函数对数据表征进行约束,其中对一个数据表征利用多层感知结构机投影到另一个数据空间中,防止模型坍塌;在无监督约束后,添加另一个多层感知机进行投影,并使用数据的真实标签对投影后的结果进行全监督约束;对于无监督和全监督训练后的数据表征,转换到检测和分割等下游任务中进行迁移学习测试。
[0007]为达上述目的,本专利技术一方面提出了一种泛监督表示学习方法,包括:
[0008]获取训练数据;其中,所述训练数据包括图像数据和所述图像数据对应的标签信息;
[0009]将所述训练数据输入视觉网络模型进行特征提取得到所述图像数据对应的第一空间特征,并基于所述第一空间特征映射得到第二空间特征,以及基于所述第二空间特征映射得到第三空间特征;
[0010]计算所述第一空间特征和所述第二空间特征的第一损失函数值,并根据所述标签信息计算所述第三空间特征的第二损失函数值;
[0011]基于所述第一损失函数值和所述第二损失函数值更新所述视觉网络模型的参数,以得到训练后的视觉网络模型。
[0012]根据本专利技术实施例的泛监督表示学习方法还可以具有以下附加技术特征:
[0013]进一步地,在本专利技术的一个实施例中,在所述将训练数据输入视觉网络模型进行特征提取之前,还包括:对所述训练数据进行数据预处理得到第一数据增强结果和第二数据增强结果;其中,所述数据预处理包括以下处理方式中的至少一种:随机裁剪、随机高斯模糊、随机翻转和随机灰度处理。
[0014]进一步地,在本专利技术的一个实施例中,所述视觉网络模型包括第一结构网络,所述将训练数据输入视觉网络模型进行特征提取,得到所述图像数据对应的第一空间特征,包括:将所述第一数据增强结果和第二数据增强结果输入所述视觉网络模型;利用所述视觉网络模型的第一结构网络进行特征提取得到所述图像数据对应的第一空间特征。
[0015]进一步地,在本专利技术的一个实施例中,所述视觉网络模型还包括第二结构网络,所述基于第一空间特征映射得到第二空间特征,以及基于所述第二空间特征映射得到第三空间特征,包括:利用所述第二结构网络将所述第一空间特征在第一预设数据空间进行特征映射,得到所述第二空间特征;以及,利用所述第二结构网络将所述第二空间特征在第二预设数据空间进行特征映射,得到所述第三空间特征。
[0016]进一步地,在本专利技术的一个实施例中,所述计算第一空间特征和所述第二空间特征的第一损失函数值,并根据所述标签信息计算所述第三空间特征的第二损失函数值,包括:利用自监督对比损失函数计算所述第一空间特征和所述第二空间特征的第一损失函数值;以及,利用所述标签信息计算所述第三空间特征的交叉熵损失函数的第二损失函数值。
[0017]为达到上述目的,本专利技术另一方面提出了一种泛监督表示学习装置,包括:
[0018]训练数据获取模块,用于获取训练数据;其中,所述训练数据包括图像数据和所述图像数据对应的标签信息;
[0019]特征数据获取模块,用于将所述训练数据输入视觉网络模型进行特征提取得到所述图像数据对应的第一空间特征,并基于所述第一空间特征映射得到第二空间特征,以及
基于所述第二空间特征映射得到第三空间特征;
[0020]特征数据学习模块,用于计算所述第一空间特征和所述第二空间特征的第一损失函数值,并根据所述标签信息计算所述第三空间特征的第二损失函数值;
[0021]模型参数训练模块,用于基于所述第一损失函数值和所述第二损失函数值更新所述视觉网络模型的参数,以得到训练后的视觉网络模型。
[0022]本专利技术实施例的泛监督表示学习及装置,首先对数据进行数据增强,得到两个对称样本;接下来利用视觉基础模型进行特征提取,得到数据表征;使用自监督对比损失函数来约束两对称样本的数据表征;利用多层感知机对数据表征进行投影,并利用真实标签进行全监督学习;最终将预训练的数据表征迁移到监测和分割等下游任务,体现较好的迁移性能。
[0023]本专利技术附加的方面和优点将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种泛监督表示学习方法,其特征在于,包括以下步骤:获取训练数据;其中,所述训练数据包括图像数据和所述图像数据对应的标签信息;将所述训练数据输入视觉网络模型进行特征提取得到所述图像数据对应的第一空间特征,并基于所述第一空间特征映射得到第二空间特征,以及基于所述第二空间特征映射得到第三空间特征;计算所述第一空间特征和所述第二空间特征的第一损失函数值,并根据所述标签信息计算所述第三空间特征的第二损失函数值;基于所述第一损失函数值和所述第二损失函数值更新所述视觉网络模型的参数,以得到训练后的视觉网络模型。2.根据权利要求1所述的方法,其特征在于,在所述将训练数据输入视觉网络模型进行特征提取之前,还包括:对所述训练数据进行数据预处理得到第一数据增强结果和第二数据增强结果;其中,所述数据预处理包括以下处理方式中的至少一种:随机裁剪、随机高斯模糊、随机翻转和随机灰度处理。3.根据权利要求2所述的方法,其特征在于,所述视觉网络模型包括第一结构网络,所述将训练数据输入视觉网络模型进行特征提取,得到所述图像数据对应的第一空间特征,包括:将所述第一数据增强结果和第二数据增强结果输入所述视觉网络模型;利用所述视觉网络模型的第一结构网络进行特征提取得到所述图像数据对应的第一空间特征。4.根据权利要求3所述的方法,其特征在于,所述视觉网络模型还包括第二结构网络,所述基于第一空间特征映射得到第二空间特征,以及基于所述第二空间特征映射得到第三空间特征,包括:利用所述第二结构网络将所述第一空间特征在第一预设数据空间进行特征映射,得到所述第二空间特征;以及,利用所述第二结构网络将所述第二空间特征在第二预设数据空间进行特征映射,得到所述第三空间特征。5.根据权利要求4所述的方法,其特征在于,所述计算第一空间特征和所述第二空间特征的第一损失函数值,并根据所述标签信息计算所述第三空间特征的第二损失函数值,包括:利用自监督对比损失函数计算所述第一空间特征和所述第二空间特征的第一损失函数值;以及,利用所述标签信息...

【专利技术属性】
技术研发人员:鲁继文周杰汪诚琨郑文钊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1