当前位置: 首页 > 专利查询>苏州大学专利>正文

一种图像高清还原方法、装置及存储介质制造方法及图纸

技术编号:36538993 阅读:56 留言:0更新日期:2023-02-01 16:32
本发明专利技术涉及深度学习技术领域,尤其是指一种图像高清还原方法、装置及计算机存储介质。本发明专利技术所述的图像高清还原方法,提出并设计了多级多结构注意力,多结构注意力包括现有的窗口注意力、移动窗口注意力和新引入的全局注意力操作,新引入的全局注意力操作把图像通过水平和垂直两个方向进行方向解耦,然后以很低代价计算出全局的注意力依赖关系,三种注意力的自计算和结合计算使得神经网络可以同时弥补对于局部和全局的注意力的缺陷,对现存的注意力机制进行更好的性能补偿,并且其最突出的全局注意力模块拥有非常好的性能和非常低的复杂度,完美的解决了目前注意力结构遇到的高复杂度的问题,使得计算效率大大提升。使得计算效率大大提升。使得计算效率大大提升。

【技术实现步骤摘要】
一种图像高清还原方法、装置及存储介质


[0001]本专利技术涉及深度学习
,尤其是指一种图像高清还原方法、装置及计算机存储介质。

技术介绍

[0002]现有的技术中,对于一张给定的图片,注意力机制聚焦于为每一个像素获取依赖关系。目前已经被证实的是,在神经网络中使用注意力机制可以在各式视觉图像处理任务中带来更优异的效果。但是注意力所带来的性能往往和计算量高度相关,目前大多数工作都更倾向于使用局部注意力以求降低注意力的计算量。相对应的,采用这种方式会极大的削弱注意力机制从全图获取信息的能力。
[0003]随着科学理论和技术的发展,众多视觉任务已经充分验证了深度学习以及注意力机制的有效性。但是考虑到上述的计算量的问题,目前计算机视觉领域中主要分为两种方案:一种是以ViT为代表的区块像素融合机制,将边长为16像素的像素块作为一个token,从而进行整幅图像的融合,并且提取长距离的依赖关系;另一种是以Swin为代表的进行局部注意力操作并通过非重叠窗口叠加移动来逼近全局依赖关系的方法。但是这两种方法都存在自己的问题,ViT虽然可以捕获全局信息,但是同时也丢失了不少信息。而Swin随便进行了精确捕获,但是仅仅捕获了局部关系,并且严重丢失长距离关系。所以目前在深度学习领域,没有一种可以弥补各流行方法缺点的集大成者,这个问题已经严重阻碍了这一领域的发展。

技术实现思路

[0004]为此,本专利技术所要解决的技术问题在于克服现有技术中难以同时捕获全局和局部的注意力依赖关系的问题。
[0005]为解决上述技术问题,本专利技术提供了一种图像高清还原方法,包括:
[0006]对待还原的低分辨率图像通过卷积进行初步特征提取,得到第一特征图;
[0007]将所述第一特征图进行多次多尺度的多结构注意力操作,得到目标特征图,其中,第i次多结构注意力操作为:
[0008]对第i

1次多结构注意力操作输出的特征图进行shift

conv操作,并在通过GELU激活函数后,再次进行shift

conv操作,然后与所述第i

1次多结构注意力操作输出的特征图进行残差连接,将最终输出的特征图在通道维度上分为三个部分,分别进行窗口注意力操作、移动窗口注意力操作和全局注意力操作,最后将得到的三个输出进行通道相加得到第i次多结构注意力操作输出,其中,所述全局注意力操作为:
[0009]将第三通道特征进行水平信息提取的结果和将第三通道特征进行水平信息提取再进行垂直信息提取的结果以及将第三通道特征进行垂直信息提取的结果点积,得到全局注意特征;
[0010]将所述目标特征图与所述第一特征图进行残差连接后上采样,再通过卷积进行最
终的信息提取,并进行分辨率放大操作,得到还原后的高分辨率图像。
[0011]优选地,对所述待还原的低分辨率图像X通过3
×
3卷积进行初步特征提取,得到第一特征图F0=Conv3×3(X)。
[0012]优选地,所述多次多尺度的多结构注意力操作以三个互质的窗口尺寸顺序循环执行。
[0013]优选地,所述全局注意力操作的具体公式为:
[0014][0015]其中,为所述第三通道特征,θ()和g()代表了两个卷积操作,R
h
()和R
v
()分别代表了水平和垂直的结构变化,f()代表了softmax操作,T为转置操作。
[0016]优选地,所述窗口注意力操作将图像分成多个小的窗口,然后对每一个窗口进行传统的注意力计算,具体计算公式为:
[0017][0018]其中,为第一通道特征,R
w
()代表了窗口划分操作,θ()和g()代表了两个卷积操作,f()代表了softmax操作,T为转置操作。
[0019]优选地,所述移动窗口注意力操作先对图像进行一个窗口移动,再将图像分成多个小的窗口,然后对每一个窗口进行传统的注意力计算,具体计算公式为:
[0020][0021]其中,为第二通道特征,R
w
()代表了窗口划分操作,θ()和g()代表了两个卷积操作,f()代表了softmax操作,S()和US()代表了窗口移动和反窗口移动操作,T为转置操作。
[0022]优选地,将所述目标特征图F
K
与所述第一特征图F0进行残差连接后上采样,再通过3
×
3卷积进行最终的信息提取,并通过pixel shuffle进行分辨率的放大功能,得到还原后的高分辨率图像Y=PS(Conv3×3(U(F0+F
K
)))
[0023]其中,U()为上采用操作,PS()为pixel shuffle操作。
[0024]本专利技术还提供了一种图像高清还原装置,包括:
[0025]初步特征提取模块,用于对待还原的低分辨率图像通过卷积进行初步特征提取,得到第一特征图;
[0026]多尺度多结构注意力操作模块,用于将所述第一特征图进行多次多尺度的多结构注意力操作,得到目标特征图,其中,第i次多结构注意力操作为:
[0027]对第i

1次多结构注意力操作输出的特征图进行shift

conv操作,并在通过GELU激活函数后,再次进行shift

conv操作,然后与所述第i

1次多结构注意力操作输出的特征图进行残差连接,将最终输出的特征图在通道维度上分为三个部分,分别进行窗口注意力操作、移动窗口注意力操作和全局注意力操作,最后将得到的三个输出进行通道相加得到第i次多结构注意力操作输出,其中,所述全局注意力操作为:
[0028]将第三通道特征进行水平信息提取的结果和将第三通道特征进行水平信息提取再进行垂直信息提取的结果以及将第三通道特征进行垂直信息提取的结果点积,得到全局注意特征;
[0029]图像还原模块,用于将所述目标特征图与所述第一特征图进行残差连接后上采样,再通过卷积进行最终的信息提取,并进行分辨率放大操作,得到还原后的高分辨率图像。
[0030]优选地,所述图像高清还原装置应用于图像放大,旧照片高清化,视频增强服务。
[0031]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像高清还原方法的步骤。
[0032]本专利技术的上述技术方案相比现有技术具有以下优点:
[0033]本专利技术所述的图像高清还原方法,提出并设计了多级多结构注意力,多结构注意力包括现有的窗口注意力、移动窗口注意力和新引入的全局注意力操作,新引入的全局注意力操作把图像通过水平和垂直两个方向进行方向解耦,然后以很低代价计算出全局的注意力依赖关系,三种注意力的自计算和结合计算使得神经网络可以同时弥补对于局部和全局的注意力的缺陷,对现存的注意力机制进行更好的性能补偿,并且其最突出的全局本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像高清还原方法,其特征在于,包括:对待还原的低分辨率图像通过卷积进行初步特征提取,得到第一特征图;将所述第一特征图进行多次多尺度的多结构注意力操作,得到目标特征图,其中,第i次多结构注意力操作为:对第i

1次多结构注意力操作输出的特征图进行shift

conv操作,并在通过GELU激活函数后,再次进行shift

conv操作,然后与所述第i

1次多结构注意力操作输出的特征图进行残差连接,将最终输出的特征图在通道维度上分为三个部分,分别进行窗口注意力操作、移动窗口注意力操作和全局注意力操作,最后将得到的三个输出进行通道相加得到第i次多结构注意力操作输出,其中,所述全局注意力操作为:将第三通道特征进行水平信息提取的结果和将第三通道特征进行水平信息提取再进行垂直信息提取的结果以及将第三通道特征进行垂直信息提取的结果点积,得到全局注意特征;将所述目标特征图与所述第一特征图进行残差连接后上采样,再通过卷积进行最终的信息提取,并进行分辨率放大操作,得到还原后的高分辨率图像。2.根据权利要求1所述的图像高清还原方法,其特征在于,对所述待还原的低分辨率图像X通过3
×
3卷积进行初步特征提取,得到第一特征图F0=Conv3×3(X)。3.根据权利要求1所述的图像高清还原方法,其特征在于,所述多次多尺度的多结构注意力操作以三个互质的窗口尺寸顺序循环执行。4.根据权利要求1所述的图像高清还原方法,其特征在于,所述全局注意力操作的具体公式为:其中,为所述第三通道特征,θ()和g()代表了两个卷积操作,R
h
()和R
v
()分别代表了水平和垂直的结构变化,f()代表了softmax操作,T为转置操作。5.根据权利要求1所述的图像高清还原方法,其特征在于,所述窗口注意力操作将图像分成多个小的窗口,然后对每一个窗口进行传统的注意力计算,具体计算公式为:其中,为第一通道特征,R
w
()代表了窗口划分操作,θ()和g()代表了两个卷积操作,f()代表了softmax操作,T为转置操作。6.根据权利要求1所述的图像高清还原方法,其特征在于,所述移动窗口注意力操作先对图像进行一个窗口移动,再将图像分成多个小的窗口,然后对每...

【专利技术属性】
技术研发人员:钟宝江宋子江
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1