一种针对底层视觉任务的预训练方法技术

技术编号:37978238 阅读:9 留言:0更新日期:2023-06-30 09:53
本发明专利技术公开了一种针对底层视觉任务的预训练方法。该方法包括:构建图像退化自动编码器,该图像退化自动编码器包括编码器、解码器和退化表征器,其中编码器以退化图像作为输入,生成隐式图像表征;退化表征器用于生成包含退化信息的退化向量并传递至解码器以调制解码器的中间特征;解码器基于所述隐式图像表征,产生具有不同退化类型的输出图像;利用设定的损失函数预训练所述图像退化自动编码器;针对下游任务,对预训练的所述图像退化自动编码器进行微调,并且在微调过程中,将所述解码器替换为单个卷积层。本发明专利技术解决了现有预训练方案合理性不足、通用性差的问题,大幅提升了模型在高成本下游任务中的性能。模型在高成本下游任务中的性能。模型在高成本下游任务中的性能。

【技术实现步骤摘要】
一种针对底层视觉任务的预训练方法


[0001]本专利技术涉及计算机视觉
,更具体地,涉及一种针对底层视觉任务的预训练方法。

技术介绍

[0002]自监督预训练在高层视觉(high

levelvision)中取得了极大成功,例如分类、分割、检测任务等。然而,在底层视觉(low

levelvision)中,预训练仍然是一个定义不明确、不完善的问题,例如对于预训练的初衷、底层视觉预训练的核心问题、预训练的效果、底层视觉的预训练范式等,已有研究还无法给出明确的答案。
[0003]在现有技术中,涉及底层视觉的预训练方案包括IPT、EDT和HAT等,但这些方案只考虑了图像超分辨率、高斯去噪、简单模型去雨这三个下游任务,并且这些任务都是低成本任务。具体而言,IPT在ImageNet数据集上采用多任务恢复(SR+去噪+去雨)作为预训练任务,然后针对每个特定任务分别在特定的数据集上进行微调。HAT使用单任务进行预训练,并发现在ImageNet数据集上对X4超分进行预训练会带来轻微的提升(约0.1dB)。EDT提出了一种多相关任务的预训练方法,该方法在部分ImageNet(200k)数据集上训练多个高度相关的任务,例如X2、X3、X4超分。每个子任务都在较小的数据集(例如,DF2K)上进行微调。从这些方案的结果来看,在高斯去噪任务上观察到非常微小的改善(0.1dB),但这三种预训练方法都没有在下游任务上取得显著的改进,却耗费了大量的计算资源。
[0004]综上,现有技术主要存在以下缺陷:
[0005](1)只考虑对低成本任务进行下游微调,但这类任务制造训练图像对没有限制,因此,完全可以通过收集更多干净/高分辨率的图像以及加大模型,就可以获得更好的性能。并且在相同或不同的数据集上进行两阶段的预训练和微调是多余的。更重要的是,低成本任务不会出现严重的过拟合问题,因此可能不需要预训练。
[0006](2)现有针对底层视觉的预训练方案,其预训练任务和下游微调任务的优化目标相同。这意味着在预训练阶段学习到的表征只能有利于预训练中涉及的任务,对于新的下游任务,需要重新进行相应的预训练。因此,这些任务特定的预训练的应用范围非常有限。

技术实现思路

[0007]本专利技术的目的是克服上述现有技术的缺陷,提供一种针对底层视觉任务的预训练方法。该方法包括以下步骤:
[0008]构建图像退化自动编码器,该图像退化自动编码器包括编码器、解码器和退化表征器,其中编码器以退化图像作为输入,生成隐式图像表征;退化表征器用于生成包含退化信息的退化向量并将其传递至解码器以调制解码器的中间特征;解码器基于所述隐式图像表征,产生具有不同退化类型的输出图像;
[0009]利用设定的损失函数预训练所述图像退化自动编码器;
[0010]针对下游任务,对预训练的所述图像退化自动编码器进行微调,并且在微调过程
中,将所述解码器替换为单个卷积层。
[0011]与现有技术相比,本专利技术的优点在于,提供了一种不依赖于下游任务的底层视觉预训练新范式,在该范式下,首先破坏图像,然后进行隐式的图像重建和退化生成,这个过程需要理解自然图像的表征和退化信息,这对于通用的底层视觉任务是至关重要的。本专利技术可以解决现有预训练方案合理性不足、通用性差的问题,大幅提升模型在高成本下游任务中的性能。
[0012]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0013]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0014]图1是根据本专利技术一个实施例的针对底层视觉任务的预训练方法的流程图;
[0015]图2是根据本专利技术一个实施例的针对底层视觉任务的预训练

微调范式的框架图;
[0016]附图中,Encoder

编码器;Decoder

解码器;Blur

模糊;clean

清晰;noise

噪声;Pretrain

预训练;Finetune

微调;degraded

退化的;conv

卷积,Image Representation

图像表示;Degradation Embedding

退化向量;Initialize

初始化。
具体实施方式
[0017]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0018]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0019]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0020]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0021]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0022]本专利技术的目的是:在底层视觉中,将注意力转移到高成本的任务上,这主要是考虑高成本任务涉及昂贵的数据采集过程,它们实际上面临着数据量不足、模型容易过拟合的问题。并且,现有针对底层视觉的预训练范式缺乏足够的合理性,应为底层视觉的表征学习设计更合适的代理任务。特别地,该代理任务不应依赖于下游任务,而是能学习到通用且有益的底层特征表征。
[0023]参见图1所示,所提供的针对底层视觉任务的预训练方法包括以下步骤:
[0024]步骤S110,构建图像退化自动编码器,其包括编码器、解码器和退化表征器。
[0025]参见图2所示,图像退化自动编码器(或称为degradationautoencoder,DegAE)整体上包括编码器、解码器和退化表征器,并且输入编码器的图像是图像退化过程处理的图
像。
[0026]DegAE预训练阶段主要包括三部分:一个图像退化过程、一个图像特征编码器、一个生成图像退化的解码器。DegAE接收退化的图像和退化的参考图像它的目标是将参考退化类型迁移到输入图像上,得到具有输入图像内容但退化类型为的输出图像
[0027]具体而言,首先使用一系列图像退化操作破坏干净的图像,得到退化图像。DegAE的编码器可基于Transformer架构构建,它接收一幅退化后的图像,得到图像的深度表征。DegAE的解码器可基于CNN(卷积神经网络)构建,它接收编码器得到的深度图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对底层视觉任务的预训练方法,包括以下步骤:构建图像退化自动编码器,该图像退化自动编码器包括编码器、解码器和退化表征器,其中编码器以退化图像作为输入,生成隐式图像表征;退化表征器用于生成包含退化信息的退化向量并将其传递至解码器以调制解码器的中间特征;解码器基于所述隐式图像表征,产生具有不同退化类型的输出图像;利用设定的损失函数预训练所述图像退化自动编码器;针对下游任务,对预训练的所述图像退化自动编码器进行微调,并且在微调过程中,将所述解码器替换为单个卷积层。2.根据权利要求1所述的方法,其特征在于,所述编码器是基于底层视觉Transformer架构的编码器。3.根据权利要求1所述的方法,其特征在于,所述解码器是卷积神经网络结构,并且包含多个残差块,在每个残差模块中引入退化注入模块,该退化注入模块利用所述退化表征器生成的退化向量输出调制变量,以调制所述解码器的中间特征。4.根据权利要求3所述的方法,其特征在于,根据以下公式调制所述解码器的中间特征:GFM(x
i
)=α*x
i
+β其中是解码器中间层的特征图,C、H和W分别是特征图的通道数、高度和宽度,α和β是退化表征器输出的调制变量。5.根据权利要求1所述的方法,其特征在于,所述退化表征器包含预训练的超分辨率生成对抗网络模型SRGAN和下采样层。6.根据权利要求1所述的方法,其特征在于,所述退化图像根据以下公式获得:其中,I是给定的清晰图像,k是高斯模糊核,JPEG表示进行JPEG压缩,n是噪声。7.根据权利要求1所述的方法,其特征在于,所述损失函数设置为:L
DegAE

【专利技术属性】
技术研发人员:刘翼豪何静雯董超顾津锦孔祥涛乔宇
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1