一种泛监督表示学习方法及装置制造方法及图纸

技术编号：35412652 阅读：20 留言：0更新日期：2022-11-03 11:09

本发明专利技术公开了一种泛监督表示学习方法及装置，该方法包括：获取训练数据；其中，训练数据包括图像数据和图像数据对应的标签信息；将训练数据输入视觉网络模型进行特征提取得到图像数据对应的第一空间特征，并基于第一空间特征映射得到第二空间特征，以及基于第二空间特征映射得到第三空间特征；计算第一空间特征和第二空间特征的第一损失函数值，并根据标签信息计算第三空间特征的第二损失函数值；基于第一损失函数值和第二损失函数值更新所述视觉网络模型的参数，以得到训练后的视觉网络模型。本发明专利技术能够使得学习到的表示不仅能在训练数据集上取得优越的性能，还能在其他视觉任务上获得不错的迁移性能，可以实现图像检测和分割。割。割。

全部详细技术资料下载

【技术实现步骤摘要】
一种泛监督表示学习方法及装置

[0001]本专利技术涉及计算机视觉与机器学习
，尤其涉及一种泛监督表示学习方法及装置。

技术介绍

[0002]在深度学习技术的发展中，如何从数据中学习到一个好的表示是一项重要且具有挑战性的任务，也是很多研究领域的基本步骤，如词嵌入学习和深度度量学习。在计算机视觉中，现存的方法一般采用监督学习或非监督学习算法，利用深度神经网络从原始图像中挖掘有意义的表示信息，再利用这些学习到的表示来进行多种下游任务，如图像分类、语义分割以及目标检测等。
[0003]作为无监督学习的一个重要分支，自监督学习旨在通过多个不同的代理任务来自动生成标签用来训练模型表示。现有的方法包括基于图像恢复、图像旋转预测等。然而，自监督方法只能取得相对较差的分类性能，因为它们放弃了对大量标记数据的利用，而这些数据可以为表示提供足够的高级语义信息。全监督深度表示学习算法往往能取得较好的结果。在ImageNet数据集上，全监督算法能够取得超过80％的准确率，体现出了这些方法的优越性。全监督学习聚焦于网络结构的设计、数据增强以及损失函数的结构。首先，近些年提出的ResNet和视觉Transformer等基础模型在各种数据集上都提高了相应的基准结果。对于数据处理，相关的研究旨在充分利用原始图像来或者更高的训练效率以及更好的泛化性能，如广泛利用的数据增强方法Mixup以及许多数据增强算法等。对于损失函数的设计，分类损失函数一般基于交叉熵损失函数，包括ArcFace和CosFace。除此之外，一些损失函数在深度度量学习中...

【技术保护点】

【技术特征摘要】
1.一种泛监督表示学习方法，其特征在于，包括以下步骤：获取训练数据；其中，所述训练数据包括图像数据和所述图像数据对应的标签信息；将所述训练数据输入视觉网络模型进行特征提取得到所述图像数据对应的第一空间特征，并基于所述第一空间特征映射得到第二空间特征，以及基于所述第二空间特征映射得到第三空间特征；计算所述第一空间特征和所述第二空间特征的第一损失函数值，并根据所述标签信息计算所述第三空间特征的第二损失函数值；基于所述第一损失函数值和所述第二损失函数值更新所述视觉网络模型的参数，以得到训练后的视觉网络模型。2.根据权利要求1所述的方法，其特征在于，在所述将训练数据输入视觉网络模型进行特征提取之前，还包括：对所述训练数据进行数据预处理得到第一数据增强结果和第二数据增强结果；其中，所述数据预处理包括以下处理方式中的至少一种：随机裁剪、随机高斯模糊、随机翻转和随机灰度处理。3.根据权利要求2所述的方法，其特征在于，所述视觉网络模型包括第一结构网络，所述将训练数据输入视觉网络模型进行特征提取，得到所述图像数据对应的第一空间特征，包括：将所述第一数据增强结果和第二数据增强结果输入所述视觉网络模型；利用所述视觉网络模型的第一结构网络进行特征提取得到所述图像数据对应的第一空间特征。4.根据权利要求3所述的方法，其特征在于，所述视觉网络模型还包括第二结构网络，所述基于第一空间特征映射得到第二空间特征，以及基于所述第二空间特征映射得到第三空间特征，包括：利用所述第二结构网络将所述第一空间特征在第一预设数据空间进行特征映射，得到所述第二空间特征；以及，利用所述第二结构网络将所述第二空间特征在第二预设数据空间进行特征映射，得到所述第三空间特征。5.根据权利要求4所述的方法，其特征在于，所述计算第一空间特征和所述第二空间特征的第一损失函数值，并根据所述标签信息计算所述第三空间特征的第二损失函数值，包括：利用自监督对比损失函数计算所述第一空间特征和所述第二空间特征的第一损失函数值；以及，利用所述标签信息...

【专利技术属性】
技术研发人员：鲁继文，周杰，汪诚琨，郑文钊，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人