一种针对底层视觉任务的预训练方法技术

技术编号：37978238 阅读：9 留言：0更新日期：2023-06-30 09:53

本发明专利技术公开了一种针对底层视觉任务的预训练方法。该方法包括：构建图像退化自动编码器，该图像退化自动编码器包括编码器、解码器和退化表征器，其中编码器以退化图像作为输入，生成隐式图像表征；退化表征器用于生成包含退化信息的退化向量并传递至解码器以调制解码器的中间特征；解码器基于所述隐式图像表征，产生具有不同退化类型的输出图像；利用设定的损失函数预训练所述图像退化自动编码器；针对下游任务，对预训练的所述图像退化自动编码器进行微调，并且在微调过程中，将所述解码器替换为单个卷积层。本发明专利技术解决了现有预训练方案合理性不足、通用性差的问题，大幅提升了模型在高成本下游任务中的性能。模型在高成本下游任务中的性能。模型在高成本下游任务中的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对底层视觉任务的预训练方法

[0001]本专利技术涉及计算机视觉
，更具体地，涉及一种针对底层视觉任务的预训练方法。

技术介绍

[0002]自监督预训练在高层视觉(high
‑
levelvision)中取得了极大成功，例如分类、分割、检测任务等。然而，在底层视觉(low
‑
levelvision)中，预训练仍然是一个定义不明确、不完善的问题，例如对于预训练的初衷、底层视觉预训练的核心问题、预训练的效果、底层视觉的预训练范式等，已有研究还无法给出明确的答案。
[0003]在现有技术中，涉及底层视觉的预训练方案包括IPT、EDT和HAT等，但这些方案只考虑了图像超分辨率、高斯去噪、简单模型去雨这三个下游任务，并且这些任务都是低成本任务。具体而言，IPT在ImageNet数据集上采用多任务恢复(SR+去噪+去雨)作为预训练任务，然后针对每个特定任务分别在特定的数据集上进行微调。HAT使用单任务进行预训练，并发现在ImageNet数据集上对X4超分进行预训练会带来轻微的提升(约0.1dB)。EDT提出了一种多相关任务的预训练方法，该方法在部分ImageNet(200k)数据集上训练多个高度相关的任务，例如X2、X3、X4超分。每个子任务都在较小的数据集(例如，DF2K)上进行微调。从这些方案的结果来看，在高斯去噪任务上观察到非常微小的改善(0.1dB)，但这三种预训练方法都没有在下游任务上取得显著的改进，却耗费了大量的计算资源。
[0004]综上，现有技术主要存...

【技术保护点】

【技术特征摘要】
1.一种针对底层视觉任务的预训练方法，包括以下步骤：构建图像退化自动编码器，该图像退化自动编码器包括编码器、解码器和退化表征器，其中编码器以退化图像作为输入，生成隐式图像表征；退化表征器用于生成包含退化信息的退化向量并将其传递至解码器以调制解码器的中间特征；解码器基于所述隐式图像表征，产生具有不同退化类型的输出图像；利用设定的损失函数预训练所述图像退化自动编码器；针对下游任务，对预训练的所述图像退化自动编码器进行微调，并且在微调过程中，将所述解码器替换为单个卷积层。2.根据权利要求1所述的方法，其特征在于，所述编码器是基于底层视觉Transformer架构的编码器。3.根据权利要求1所述的方法，其特征在于，所述解码器是卷积神经网络结构，并且包含多个残差块，在每个残差模块中引入退化注入模块，该退化注入模块利用所述退化表征器生成的退化向量输出调制变量，以调制所述解码器的中间特征。4.根据权利要求3所述的方法，其特征在于，根据以下公式调制所述解码器的中间特征：GFM(x
i
)＝α*x
i
+β其中是解码器中间层的特征图，C、H和W分别是特征图的通道数、高度和宽度，α和β是退化表征器输出的调制变量。5.根据权利要求1所述的方法，其特征在于，所述退化表征器包含预训练的超分辨率生成对抗网络模型SRGAN和下采样层。6.根据权利要求1所述的方法，其特征在于，所述退化图像根据以下公式获得：其中，I是给定的清晰图像，k是高斯模糊核，JPEG表示进行JPEG压缩，n是噪声。7.根据权利要求1所述的方法，其特征在于，所述损失函数设置为：L
DegAE

【专利技术属性】
技术研发人员：刘翼豪，何静雯，董超，顾津锦，孔祥涛，乔宇，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人