一种联合局部和全局信息的图像重建系统及方法技术方案

技术编号：40344634 阅读：8 留言：0更新日期：2024-02-09 14:30

本发明专利技术属于图像处理领域，涉及一种联合局部和全局信息的图像重建系统及方法，所述系统包括生成器网络、边缘检测网络和深度检测网络；生成器网络将输入的部分信息损失的图像Y通过映射得到重建图像Z；采用端到端的边缘检测网络，输入图像后直接产生边缘图像作为输出；采用一个提取单幅图像的深度检测网络，输入整个图像后直接预测像素级的深度；构建本发明专利技术的联合局部和全局信息的图像重建系统并应用，与现有技术基于图像重建的掩码自编码模型相比，本发明专利技术提出的网络架构实现了图像重建准确率与计算效率之间的最佳平衡，能够提高图像重建的准确性和计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理领域，采用深度学习的方法实现对部分遮挡的图像进行重建，恢复原始图像的技术，具体设计一种联合局部和全局信息的图像重建系统及方法。

技术介绍

1、图像重建是图像处理领域中最基础的任务之一，计算机利用图像的已知的语义信息，对图片进行预测，从而实现重建原始图像。深度学习正在成为一个解决不同领域问题的通用方法，如语言、图像、文字等。在计算机视觉领域，卷积神经网络(convolutionalneural networks，cnns)一直占据主导地位。受到自然语言处理领域自注意力机制成功的启示，一些基于cnns的模型开始尝试通过空间或通道层面的额外自注意力层来捕获长程依赖，而另一些模型则试图用全局或局部自注意块来代替传统的卷积操作。在transformer于自然语言处理领域取得成功之际，基于注意力的模型在视觉识别领域也得到了广泛关注。最近，transformer已经成功应用在计算机视觉，并作为语言和视觉通用的架构模块，在许多计算机视觉任务中实现了良好的性能，如目标检测、图像分割、图像重建、图像增强等。

2、自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身信息，通过这种构造的监督信息对网络进行训练，其核心是如何给输入数据自动生成标签。近年来，许多基于自监督的方法在下游视觉任务中取得了较高的性能，例如moco-v3、mae等。

3、自编码器(auto-encoder,ae)是深度学习框架中常见的一类模型，用于学习图像的压缩特征，使其输出与输入相似。它由两部分组成：编码器(encoder)和解

4、虽然基于掩码自编码器重建图像在某些方法取得了良好的效果，他们仍受限于以下缺点：

5、(1)这种预训练的网络最开始是为分类而设计，因此高级特征往往关注主要目标而忽略了其他细节，因此提出一个边缘检测网络作为图像局部结构细化和深度检测网络作为图像全局结构提取，提供全局结构和局部结构之间的平衡。(2)mae中所使用的损失函数只计算重建图像和原图像素的均方误差，因此提出了边缘检测损失函数用于约束局部信息和深度检测损失函数用于约束全局信息，以获得更好的性能。

技术实现思路

1、鉴于上述现有技术的缺陷与不足，本专利技术的目的旨在提出一种联合局部和全局信息的图像重建系统，以实现图像重建准确性和计算效率之间的最佳平衡。

2、本专利技术所提出的系统是一种高效的联合局部和全局信息的掩码自编码器的图像重建系统。它由三个基本网络组成：一个生成器网络，一个边缘检测网络和一个深度检测网络。生成器网络包括两个子网络：编码器和解码器。编码器的输入是未被遮蔽的可见令牌(tokens)，是通过线性投影嵌入补丁(patches)并添加位置信息得到，再通过一系列的transformer块处理来得到集合tokens。解码器的输入则是已编码的可见tokens和掩码tokens，通过少量的transformer block重建原始尺寸的图像。最后将预测结构和原始图像输入到边缘检测网络和深度检测网络中进行比较，计算均方误差损失函数。图像局部结构细化的核心是边缘结构提取，采用一个端到端的边缘检测器，输入图像后直接产生边缘图像作为输出。图像全局结构提取的核心是图像的深度图提取，采用一个提取单幅图像的深度感知网络，输入整个图像后直接预测像素级的深度。

3、为达成上述目标，本专利技术是通过以下技术方案来实现的：

4、第一方面，本专利技术提供一种联合局部和全局信息的图像重建系统，用于对图像重建得到精准的重建图像z*，所述系统包括生成器网络、边缘检测网络和深度检测网络；

5、所述生成器网络是一个用权重r参数化的transformer网络，生成器网络包括编码器和解码器，生成器网络将输入的部分信息损失的图像y通过映射得到重建图像z；

6、所述边缘检测网络由深度卷积网络和深度监督网络进行图像到图像的预测，边缘检测网络分别对原始图像x和重建图像z进行特征提取，分别得到原始图像x的边缘二值图和重建图像z的边缘二值图，计算两者的均方误差损失函数，即为边缘检测损失函数ledge(z,x)；

7、所述深度检测网络是一个直接预测像素深度的端到端的单一深度卷积神经网络，深度检测网络分别以原始图像x和重建图像z作为输入，经过一系列模块进行特征提取，分别得到原始图像x的深度二值图和重建图像z的深度二值图，计算两者的均方误差损失函数，即为深度检测损失函数ldepth(z,x)；回传边缘检测损失函数和深度检测损失函数，边缘检测损失函数约束局部信息，深度检测损失函数约束全局信息，最终得到重建图像z*。

8、进一步地，所述编码器一个vit网络，将图像划分成一个个patches，对每个补丁通过全连接层生成tokens，并加入位置信息，根据掩码比例进行随机均匀采样，将未掩码tokens输入到transformer编码器中进行编码；解码器独立于编码器只需要8个transformer blocks，将编码后的tokens和有位置信息的掩码tokens按照原先在patch形态时对于的顺序拼在一起，输入到解码器中，解码器解码掩码tokens对应的部分送入全连接层，对掩码patches的像素值进行预测，获得重建图像z。

9、进一步地，所述边缘检测网络采用vggnet-16架构；

10、将rgb图像作为输入，使用两个3×3卷积层对图像进行特征提取，获得分辨率不变，通道数为64的第一特征图；

11、将第一特征图进行池化，获得分辨率为原始图像1/2，通道数为64的特征图，再使用两个3×3卷积层对此进行特征提取，获得分辨率为原始图像1/2，通道数为128的第二特征图；

12、将第二特征图进行池化，获得分辨率为原始图像1/4，通道数为128的特征图，再使用三个3×3卷积层对此进行特征提取，获得分辨率为原始图像1/4，通道数为256的第三特征图；

13、将第三特征图进行池化，获得分辨率为原始图像1/8，通道数为本文档来自技高网...

【技术保护点】

1.一种联合局部和全局信息的图像重建系统，用于对图像重建得到精准的重建图像Z*，其特征在于，所述系统包括生成器网络、边缘检测网络和深度检测网络；

2.根据权利要求1所述的联合局部和全局信息的图像重建系统，其特征在于，所述编码器一个ViT网络，将图像划分成一个个patches，对每个补丁通过全连接层生成tokens，并加入位置信息，根据掩码比例进行随机均匀采样，将未掩码tokens输入到Transformer编码器中进行编码；解码器独立于编码器只需要8个Transformer blocks，将编码后的tokens和有位置信息的掩码tokens按照原先在patch形态时对于的顺序拼在一起，输入到解码器中，解码器解码掩码tokens对应的部分送入全连接层，对掩码patches的像素值进行预测，获得重建图像Z。

3.根据权利要求1所述的联合局部和全局信息的图像重建系统，其特征在于，所述边缘检测网络采用VGGNet-16架构；

4.根据权利要求3所述的联合局部和全局信息的图像重建系统，其特征在于，边缘检测网络中奖得到的结果和原始图像进行交叉熵损失函数计算来监督边缘检测网络的训练。

5.根据权利要求1所述的联合局部和全局信息的图像重建系统，其特征在于，所述深度检测网络输入为RGB图像，通过一个3×3卷积层，通道数为128得到第一特征图；

6.根据权利要求5所述的联合局部和全局信息的图像重建系统，其特征在于，所述模块1包括一个1×1卷积层、一个3×3卷积层、一个7×7卷积层和一个11×11卷积层；首先，输入特征图经过1×1卷积层后分为4个通道，之后将经过1×1卷积层、3×3卷积层、7×7卷积层和11×11卷积层后的特征图进行融合并输出。

7.根据权利要求5所述的联合局部和全局信息的图像重建系统，其特征在于，所述模块2包括一个1×1卷积层、一个3×3卷积层、一个5×5卷积层和一个7×7卷积层；首先，输入特征图经过1×1卷积层后分为4个通道，之后将经过1×1卷积层、3×3卷积层、5×5卷积层和7×7卷积层后的特征图进行融合并输出。

8.根据权利要求5所述的联合局部和全局信息的图像重建系统，其特征在于，深度检测网络中损失函数采用排序损失的方法来监督网络满足深度预测图实现真实的前后顺序关系。

9.利用权利要求1-8任一项所述的系统进行图像重建方法，其特征在于，所述方法包括以下步骤：

...

【技术特征摘要】

1.一种联合局部和全局信息的图像重建系统，用于对图像重建得到精准的重建图像z*，其特征在于，所述系统包括生成器网络、边缘检测网络和深度检测网络；

2.根据权利要求1所述的联合局部和全局信息的图像重建系统，其特征在于，所述编码器一个vit网络，将图像划分成一个个patches，对每个补丁通过全连接层生成tokens，并加入位置信息，根据掩码比例进行随机均匀采样，将未掩码tokens输入到transformer编码器中进行编码；解码器独立于编码器只需要8个transformer blocks，将编码后的tokens和有位置信息的掩码tokens按照原先在patch形态时对于的顺序拼在一起，输入到解码器中，解码器解码掩码tokens对应的部分送入全连接层，对掩码patches的像素值进行预测，获得重建图像z。

3.根据权利要求1所述的联合局部和全局信息的图像重建系统，其特征在于，所述边缘检测网络采用vggnet-16架构；

5.根据权利...

【专利技术属性】
技术研发人员：周全，胡张颖，姜政，项伟康，吴晓富，樊亚文，康彬，张索非，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人