一种基于多阶段级联高阶交互网络的图像补全方法技术

技术编号：39960879 阅读：5 留言：0更新日期：2024-01-09 00:02

本发明专利技术公开了一种基于多阶段级联高阶交互网络的图像补全方法，属于计算机视觉领域，用于大面积图像缺失的补全。该方法包括：对现有数据集进行预处理，将遮挡图像、掩膜在通道上聚合，输入编码器；通过编码器对输入图片进行自适应动态特征提取，从而得到有效的编码特征；将编码特征输入修复模块：以及将经过修复模块提取的全局特征输入解码器，生成补全后的图片。本发明专利技术利用高阶交互模块实现输入自适应和远距离的空间交互，在整个图像范围建模当前待补全区域与完好区域间的相关性，通过逐渐增加交互阶数，使得补全过程逐渐在深层细化特征，取得了高效且逼真的补全效果。本发明专利技术对大面积缺失图像补全效果好，而且训练周期短。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于多阶段级联高阶交互网络的图像补全方法，属于计算机视觉领域。

技术介绍

0、技术背景

1、图像补全是通过基于已知的相关像素插值来重建图像中损坏或有缺陷的部分，使得在视觉上与图像的其他部分相比，在恢复的区域上没有任何明显的伪影。随着20世纪计算机以及数字图像处理工具的发展，数字化图像成为信息化社会的重要信息载体。当图像数据在实际传输过程中出现内容丢失或者损坏，就会导致图像关键信息的表达缺失，因此研究图像补全技术具有重要意义。

2、目前，图像补全技术可以分为以下三类：基于扩散的补全、基于补丁的补全和基于深度学习的补全。

3、基于扩散的补全方法，主要是通过将缺失区域周围的局部图像特征信息从边界平滑地传播到缺失区域内部进行图形补全。但这种方法只适用于对划痕、直曲线和边缘的修补，而对有具有较大间隙/区域缺失的图像修复会产生模糊的情况。此外，数值方法的迭代实现使得其修复速度很慢。

4、基于补丁的补全方法，主要是通过迭代的方式从图像的已知区域搜索相关的补丁，并利用该补丁对缺失区域进行填充。但是这种方法大多数都取决于低级特征(例如rgb空间上的均方差特征)，只对简单纹理图像有效，在复杂纹理图像上效果不佳。

5、上述两种传统的补全方法对于小面积的缺失图像补全有较好的效果。但是当图像缺失区域过大、先验信息不足、尤其是在高级语义上有缺失时，以上两种方法的补全结果大多不能让人满意。

6、为了解决上述的问题，进一步出现了基于深度学习的补全方法。基于深度学习的补全方

7、目前，常用的深度学习模型有生成对抗网络，它采用编码器-解码器架构，并采用对抗学习策略进行训练，能够合成视觉上合理的内容。

8、基于深度学习的方法主要使用四种先验信息的学习来补全图像：(1)基于图像结构先验(如边缘和轮廓)的学习，(2)基于语义分割先验的学习，(3)基于粗略图像先验的学习，以及(4)基于原始数据直接学习。

9、虽然现有的深度学习方法已经在图像补全领域取得了一定效果，但仍然存在一些不足和缺陷：(1)大部分模型对于大面积缺失图像修复效果仍然不佳，(2)图像修复是密集预测任务，大部分模型训练时间较长且推理时间长。

技术实现思路

1、针对现有技术中基于深度学习的图像补全方法存在对大面积缺失图像补全效果差、训练周期较长而且推理时间长等技术问题，本专利技术创造性地提出一种基于多阶段级联高阶交互网络的图像补全方法。

2、本专利技术的创新点在于：提出一种多阶段级联高阶交互网络进行图像补全技术方案，并给出了具体实现方法。该技术方案是一个基于高阶交互模块的能在全局范围内建模前景(缺失区域)与背景(可见区域)区域间的远距离依赖关系的技术方案，通过自适应特征提取和远距离空间交互，以及递归卷积的设计，大大提高了补全效果和训练速度。

3、本专利技术技术方案如下。

4、一种基于多阶段级联高阶交互网络的图像补全方法，包括以下步骤：

5、步骤1：对现有数据集进行预处理，将遮挡图像、掩膜在通道上聚合，送入编码器。

6、步骤2：编码器对输入图片进行自适应动态特征提取，从而得到有效的编码特征：

7、

8、其中，concate为在通道上聚合，encoder表示编码器，x为输入图片，m为遮掩膜，h为特征高度，w为特征宽度，d为特征通道数。

9、步骤3：将编码特征送入修复模块，修复模块是一个基于高阶交互模块的多阶段级联网络，总共由三个阶段构成；

10、步骤3.1：第一阶段首先对特征进行下采样，然后通过两个二阶交互模块提取浅层局部特征：

11、

12、其中downsample为3x3卷积，步长为2，c为特征通道数；

13、步骤3.2：二阶交互模块由两个组件构成：第一个组件先将特征进行层归一化操作，

14、f3＝layernorm(f2) (3)

15、其中layernorm是层归一化。

16、之后送入一个二阶递归卷积进行空间交互，二阶递归门控卷积的步骤如下：先对输入特征进行线性投影，然后在通道上拆分成三个子空间特征：

17、

18、其中，φin为线性投影层，h为特征高度，w为特征宽带，c为特征通道数。

19、再将子空间特征f4和f5进行第一次空间交互，从而融合两个子空间的特征信息：

20、

21、进一步进行第二次空间交互从而融合三个子空间的特征信息，再经过线性投影,最后和输入特征进行残差连接得到输出；

22、

23、f7＝φout(p2)+f3 (7)

24、其中f1,f2用7x7深度可分离卷积实现，g为线性投影层，α为缩放系数，用来保持训练稳定。

25、步骤3.3：第二个组件先将输入特征进行层归一化操作，然后送入一个全连接层，最后与输入特征进行残差连接；

26、f8＝layernorm(f7) (8)

27、f9＝mlp(f8) (9)

28、f10＝f7+f9。 (10)

29、步骤3.4：重复步骤3.1、3.2、3.3从而提取到更深层次的特征：

30、f11＝hor2(f10) (11)

31、其中hor2表示二阶交互模块；

32、步骤3.5：第二阶段同样首先对输入特征进行下采样，然后通过三个三阶交互模块进一步提取深层次特征：

33、

34、其中downsample为3x3卷积，步长为2；

35、步骤3.6：三阶交互模块由两个组件构成：第一个组件先将特征进行层归一化操作：

36、f13＝layernorm(f12) (13)

37、其中layernorm是层归一化；

38、之后送入一个三阶递归门控卷积进行空间交互，三阶递归门控卷积先对输入特征进行线性投影，然后在通道上拆分成四个子空间特征：

39、

40、其中φin为线性投影层；

41、之后将子空间特征f1本文档来自技高网...

【技术保护点】

1.一种基于多阶段级联高阶交互网络的图像补全方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述一种基于多阶段级联高阶交互网络的图像补全方法，其特征在于：所述步骤S3包括下列过程：

3.根据权利要求1所述一种基于多阶段级联高阶交互网络的图像补全方法，其特征在于：所述步骤S4如下：F35＝Decoder(F34)。

【技术特征摘要】

1.一种基于多阶段级联高阶交互网络的图像补全方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述一种基于多阶段级联高阶交互网络的图像补全方法，其特征在于...

【专利技术属性】
技术研发人员：李建武，秦思莼，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人