一种基于VisionTransformer的图像压缩感知重构方法及系统技术方案

技术编号:34344286 阅读:106 留言:0更新日期:2022-07-31 04:30
本发明专利技术涉及一种基于Vision Transformer的图像压缩感知重构方法及系统,包括:(1)对图像依次进行预处理、分块压缩采样操作;(2)对图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;(3)对图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。本发明专利技术提出了一种卷积神经网络和Vision Transformer结合的图像重构混合框架,是一种端到端的压缩重构图像方法,本发明专利技术使得图像压缩感知的网络结构能够继承卷积神经网络和Transformer的优点,并且最大程度保留全局和局部特征,提高图像重构的精度。提高图像重构的精度。提高图像重构的精度。

A method and system of image compression sensing reconstruction based on visiontransformer

【技术实现步骤摘要】
一种基于Vision Transformer的图像压缩感知重构方法及系统


[0001]本专利技术涉及一种基于Vision Transformer的图像压缩感知重构方法及系统,属于图像处理


技术介绍

[0002]压缩感知也可以被叫做Compressed Sampling,即压缩采样。压缩感知是一种能够突破香农的奈奎斯特采样定理,通过利用信号的稀疏特征以远远小于原始信号的测量值,高精度的来重建原始信号的一种方法。压缩感知理论的提出,引起学术界和工业界的广泛关注。在图像处理、光学/微波成像、模式识别、无线通信等领域受到高度关注。
[0003]卷积神经网络在压缩图像感知方面取得了成功。然而,由于卷积神经网络感受野通常很小,不利于捕获全局特征,卷积运算在建模长期依赖关系时存在固有的局限性。
[0004]Transformer是一种基于自注意力机制的编码器

解码器结构,Vision Transformer将Transformer应用到计算机视觉领域。Vision Transformer可以捕获长距离依赖关系,因此在许多视觉任务中超越许多卷积神经网络结构。
[0005]现有的图像压缩感知重构方法利用卷积神经网络进行重构,卷积神经网络感受野小,不利于捕获全局特征。
[0006]随着深度学习的发展,将压缩感知与深度学习相结合,显著地提高了信号恢复的性能和速度。

技术实现思路

[0007]针对现有技术的不足,本专利技术提供了一种基于Vision Transformer的图像压缩感知重构方法;
[0008]本专利技术还提供了一种基于Vision Transformer的图像压缩感知重构系统。
[0009]本专利技术将卷积神经网络和Vision Transformer结合用于图像的压缩重构,是一种端到端的压缩重构图像方法,由自适应采样和初始重构以及深度重构三部分组成,使得图像压缩感知的网络结构能够继承卷积神经网络和Transformer的优点,并且最大程度保留全局和局部特征,增大感受野,最大程度保留全局和局部特征,提高图像重构的精度。
[0010]术语解释:
[0011]1、Vision Transformer,是将transformer架构应用到计算机视觉领域的一种模型;
[0012]2、Transformer编码器,如图2所示,是重复堆叠编码器块L次,编码器主要由以下几部分组成:Layer norm归一化层,在通道方向上,对每个深度上的输入进行归一化;多头自注意力(Multi

Head Attention)是由多个自注意力机制组合的,自注意力机制是对输入中不同部分之间建立相关性;多层感知机(MLP block)由全连接层、GELU激活函数、dropout组成。是一个传统的神经网络,如图3所示,为了解决单层感知机无法解决的非线性问题。
[0013]本专利技术的技术方案为:
[0014]一种基于Vision Transformer的图像压缩感知重构方法,包括步骤如下:
[0015](1)对图像依次进行预处理、分块压缩采样操作;
[0016](2)对步骤(1)处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;
[0017](3)对步骤(2)得到的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。
[0018]步骤(1)中,预处理,是指:调整图像的像素大小。
[0019]根据本专利技术优选的,步骤(1)中,分块压缩采样,是指:对预处理后的每张图像分成大小为B
×
B
×
l的不重叠的图像块,l表示通道数,设压缩率为s,则n
B
=[slB2],分块压缩采样表示为式(I):
[0020]y=W
s
*x
ꢀꢀ
(I)
[0021]式(I)中,*表示卷积操作,x是输入图像,y是测量值,W
s
是n
B
个大小为B
×
B
×
l的滤波器。
[0022]根据本专利技术优选的,步骤(2)中,初始重构,表示为式(II):
[0023][0024]式(II)中,*表示卷积操作,y是测量值,的每一列是一个大小为1
×
l
×
lB2的向量对应于一个B
×
B
×
l的图像块,W
int
是lB2个大小为1
×
l
×
n
B
的滤波器;是向量形式,的每一列对应于一个图像块的重构输出;
[0025]根据本专利技术优选的,步骤(2)中,重构和拼接,包括:
[0026]利用一个组合层对进行重构和拼接,组合层包括一个reshape函数和一个拼接函数,得到初始重构图像;具体实现过程如下:
[0027]a、将每个大小为1
×
l
×
lB2的重构向量reshape为一个B
×
B
×
l图像块;
[0028]b、将所有图像块拼接得到初始重构图像,这个过程表示为式(III):
[0029][0030]式(III)中,是大小为1
×
l
×
lB2的向量,h、w分别表示行、列的块数,γ(.)是将大小为1
×
l
×
lB2的向量转换为B
×
B
×
l图像块的reshape函数,k(.)是将所有这些图像块拼接起来得到初始重建图像的拼接函数。
[0031]根据本专利技术优选的,步骤(3)的具体实现步骤包括:
[0032]A、将步骤(2)得到的初始重构图像按照B
×
B
×
l的大小进行划分得到初始重构图像块,对初始重构图像块进行卷积操作,线性映射得到一维向量,如式(IV)所示:
[0033][0034]式(IV)中,W是大小为B
×
B的lB2个滤波器,是初始重构图像块,p是对h、w两个维度进行展平操作,z0是二维矩阵;
[0035]B、将z
l
‑1输入Transformer编码器,l=1...L,Transformer编码器是重复堆叠编码器块L次,包括多个多头自注意力MSA和多层感知机MLP,在每个编码器块前应用Layer Norm
(LN)这一归一化方法;
[0036]C、利用组合层对经过Transformer编码器后的输出进行重构和拼接,得到深度重构图像。
[0037]根据本专利技术优选的,Transformer编码器中,执行如式(V)、式(VI)的操作:
[0038]z

l
=MSA(LN(z
l
‑1))+z
l
‑1ꢀꢀꢀ
(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Vision Transformer的图像压缩感知重构方法,其特征在于,包括步骤如下:(1)对图像依次进行预处理、分块压缩采样操作;(2)对步骤(1)处理后的图像通过训练好的初始重构网络进行初始重构,并进行重构和拼接;(3)对步骤(2)得到的图像通过训练好的深度重构网络进行深度重构,得到深度重构图像。2.根据权利要求1所述的一种基于Vision Transformer的图像压缩感知重构方法,其特征在于,步骤(1)中,分块压缩采样,是指:对预处理后的每张图像分成大小为B
×
B
×
l的不重叠的图像块,l表示通道数,设压缩率为s,则n
B
=[slB2],分块压缩采样表示为式(I):y=W
s
*x (I)式(I)中,*表示卷积操作,x是输入图像,y是测量值,W
s
是n
B
个大小为B
×
B
×
l的滤波器。3.根据权利要求1所述的一种基于Vision Transformer的图像压缩感知重构方法,其特征在于,步骤(2)中,初始重构,表示为式(II):式(II)中,*表示卷积操作,y是测量值,的每一列是一个大小为1
×
l
×
lB2的向量对应于一个B
×
B
×
l的图像块,W
int
是lB2个大小为1
×
l
×
n
B
的滤波器;是向量形式,的每一列对应于一个图像块的重构输出。4.根据权利要求1所述的一种基于Vision Transformer的图像压缩感知重构方法,其特征在于,步骤(2)中,重构和拼接,包括:利用一个组合层对进行重构和拼接,组合层包括一个reshape函数和一个拼接函数,得到初始重构图像;具体实现过程如下:a、将每个大小为1
×
l
×
lB2的重构向量reshape为一个B
×
B
×
l图像块;b、将所有图像块拼接得到初始重构图像,这个过程表示为式(III):式(III)中,是大小为1
×
l
×
lB2的向量,h、w分别表示行、列的块数,γ(.)是将大小为1
×
l
×
lB2的向量转换为B
×
B
×
l图像块的reshape函数,k(.)是将所有这些图像块拼接起来得到初始重建图像的拼接函数。5.根据权利要求1所述的一种基于Vision Transformer的图像压缩感知重构方法,其特征在于,步骤(3)的具体实现步骤包括:A、将步骤(2)得到的初始重构图像按照B
×
B
×
l的大小进行划分得到初始重构图像块,对初始重构图像块进行卷积操作,线性映射得到一维向量,如式(IV)所示:式(IV)中,W是大小为B
×
B的lB2个滤波器,是初始重构图像块,p是对h、w两个维度进行展平操作,z0是二维矩阵;
B、将z
l
‑1输入Transformer编码器,l=1

L,Transformer编码器是重复堆叠编码器块L次...

【专利技术属性】
技术研发人员:刘福涛王付奎曹维达于依冉王馨悦李蔚郁鲁威志陈龙许丽媛姜秋波万月忠徐彪李振玲杨超尘李云龙陈芳
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1