System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于结构化知识蒸馏的多模态图像超分辨率重建方法技术_技高网

一种基于结构化知识蒸馏的多模态图像超分辨率重建方法技术

技术编号:41063485 阅读:2 留言:0更新日期:2024-04-24 11:16
本发明专利技术公开了一种结化知识蒸馏的多模态图像超分辨重建方法,属于计算机图像处理技术领域。本发明专利技术所构建的重建网络包括文本编码器、图像编码器和多模态扩散概率模型,文本编码器和图像编码器用于获取文本特征条件以传入多模态扩散概率模型,多模态扩散概率模型包括两个分支,其一用于获取输入的低分辨率图像在给定文本提示下的超分辨率重建图像,其二用于获取输入的低分辨率图像的超分辨率重建图像。本发明专利技术能够对文本模态进行稀疏编码,并利用编码后的稀疏先验特征约束重建图像的解空间,从而保证重建图像与原始图像的细节一致性。本发明专利技术的每次迭代蒸馏都能够使本发明专利技术的重建模型的扩散步数减少2倍,并且在蒸馏过程中重建图像的质量几乎没有下降。

【技术实现步骤摘要】

本专利技术属于计算机图像处理,具体涉及一种结化知识蒸馏的多模态图像超分辨重建方法。


技术介绍

1、单幅图像超分辨(sisr)任务是将多个不同退化因子的低分辨(lr)图像重建为高分辨(hr)图像的过程。然而,由于lr图像的退化因子不确定性,因此lr图像的条件分布不能很好地描述原始的hr图像分布。为了建立hr图像和lr图像之间的映射,深度学习方法已经在经验分布学习方面取得了成功。这些方法可以分为五种类型:基于回归的方法、基于生成对抗网络(gan)的方法、基于流的方法、基于变分自编码器(vae)的方法和基于扩散概率模型(ddpm)的方法。

2、基于回归的方法利用了卷积神经网络的分布假设理论进行模型训练。该方法主要采用基于拉普拉斯算子的l1损失函数和基于高斯算子的l2损失函数获得了较好的重建效果。但是,该类方法不仅严重依赖骨干网络,而且在梯度下降的过程中,计算的损失值会近似看成多个不同退化因子的平均值,导致该类方法重建的hr图像过度平滑,缺少高保真的细节特征。解决上述问题的一个突破性的解决方案是使用基于gan的方法。该方法是使用卷积神经网络捕获的细节特征作为先验特征,从而帮助gan生成更加逼真的图像。然而,基于gan的方法不仅容易陷入模型崩塌,导致重建的图像比较单一,而且该方法需要重新训练一个判别器,从而使训练产生了额外的计算开销。而基于流的方法和基于vae的方法主要利用了对数似然函数精确的估计潜在变量,从而解决了sisr任务上“一对多”问题。然而,它们重建的图像过于平滑,存在图像中的细节和纹理丢失的情况。

3、最近,基于ddpm的方法利用马尔可夫链将高斯分布的潜在变量转化为复杂分布的数据,从而解决了重建的图像过于平滑的问题。尽管如此,基于ddpm的方法是将简单的条件(lr图像)进行输入,该类方法侧重于单模态数据重建,细节特征具有随机性。因此,基于ddpm的方法需要整合不同模态之间的知识,对重建图像的解空间进行约束。另外,目前基于ddpm的方法需要数千个扩散步数来进行重建图像的优化,导致该方法计算开销巨大。


技术实现思路

1、本专利技术提出了一种结化知识蒸馏的多模态图像超分辨重建方法,以解决基于ddpm的方法的解空间约束难和采样速度慢等问题,提升超分辨图像的重建效果。

2、本专利技术采用的技术方案为:

3、一种结化知识蒸馏的多模态图像超分辨重建方法,该方法包括下列步骤:

4、步骤1,构建网络模型,该网络模型包括文本编码器、图像编码器和多模态的扩散概率模型;

5、其中,

6、文本编码器用于对输入的文本信息的进行文本特征编码并输出文本特征;

7、图像编码器用于对输入的目标图像进行图像编码并输出图像特征,其中,目标图像为高分辨率图像;

8、将文本特征和图像特征进行特征对齐处理以生成文本特征条件,并将其输入多模态的扩散概率模型;

9、多模态的扩散概率模型包括两条支路,支路一依次包括的第一编码器、第二编码器、第一解码器、第二解码器和第一高斯分布提取网络;支路二依次包括的第三编码器、第四编码器、第三解码器、第四解码器和第二高斯分布提取网络;且第一和第三编码器的网络结构相同,第二和第四编码器的网络结构相同,第一和第三解码器的网络结构相同,第二和第四解码器的网络结构相同,第一和第二高斯分布提取网络的网络结构相同;

10、两条支路以目标噪声图像xi作为输入,支路一的输入还包括文本特征条件,两条支路的之间采用注意力机制进行特征约束:对第一编码器与第三编码器的输出特征图采用注意力机制进行特征约束后再分别输入其对应的后级网络,对第一解码器与第三解码器之间的输出特征图采用注意力机制进行特征约束后再分别输入其对应的后级网络;

11、步骤2,基于图像数据集对步骤1构建的网络模型进行网络参数训练,训练时,对两个高斯分布提取网络的所输出的高斯分布进行线性组合采样,以得到当前扩散步数的最终的高斯分布;

12、且训练时基于结构化知识蒸馏方式对多模态的扩散概率模型进行迁移学习,迁移学习过程中基于多模态的扩散概率模型所设置的教师模型和学生模型之间的扩散步数满足:学生模型的扩散步数是教师模型的一半;

13、训练完毕后,基于多模态的扩散概率模型的支路一获取输入的低分辨率图像在给定文本提示下的超分辨率重建图像(有条件的重建hr图像),基于多模态图像超分辨重建模型的支路二获取输入的低分辨率图像的超分辨率重建图像(无条件的重建hr图像)。

14、本专利技术提供的技术方案至少带来如下有益效果:

15、本专利技术能够对文本模态进行稀疏编码,并利用编码后的稀疏先验特征约束重建图像的解空间,从而保证重建图像与原始图像的细节一致性。

16、本专利技术的每次迭代蒸馏都能够使本专利技术的重建模型的扩散步数减少2倍,并且在蒸馏过程中重建图像的质量几乎没有下降。

本文档来自技高网...

【技术保护点】

1.一种结化知识蒸馏的多模态图像超分辨重建方法,其特征在于,包括下列步骤:

2.如权利要求1所述的方法,其特征在于,步骤2中,结构化知识蒸馏处理为:

【技术特征摘要】

1.一种结化知识蒸馏的多模态图像超分辨重建方法,其特征在于,包括下列步骤:

【专利技术属性】
技术研发人员:王鑫唐益东颜靖柯蔡竟业邓建华
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1