当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于傅里叶变换的运动图像去模糊模型制造技术

技术编号:39588474 阅读:17 留言:0更新日期:2023-12-03 19:39
本发明专利技术公开了一种基于傅里叶变换的运动图像去模糊模型,在去模糊模型中设置三级对称编码器

【技术实现步骤摘要】
一种基于傅里叶变换的运动图像去模糊模型


[0001]本专利技术涉及图像恢复
,具体涉及一种基于傅里叶变换的运动图像去模糊模型


技术介绍

[0002]随着智能手机等诸多智能设备的普及和发展,实现拍照的需求对于人们越来越方便,如何帮助智能设备用户拍摄出清晰且没有模糊的图片也越来越重要

通常情况下的图像模糊是指图像在采集

传输

显示等过程中,由于各种因素的影响失去了清晰度

锐利度和细节等特征,而变得模糊不清的现象

常见的图像模糊类型包括:运动模糊

散焦模糊和噪声模糊等

其中运动模糊是由于拍摄设备或拍摄对象的运动而造成的模糊,例如拍摄快速移动的物体时,图像会出现拖影或伸展的现象

[0003]近年来,随着各种深度学习的网络架构层出不穷,有许多网络架构被应用于图像去模糊任务
。GAN(Generative adversarial network)
常被应用于图像去模糊任务,
GAN
通过引入生成器和判别器两个网络学习图像的分布,生成器负责将低质量模糊图像转化为高质量清晰图像,判别器负责判断生成器生成的图像是否与真值图像相似

通过不断地迭代训练生成器和判别器,
GAN
可以生成高质量的清晰图像

但是
GAN
需要训练生成器和判别器两个网络,训练过程比较复杂,图片模糊程度的不同也会导致
GAN
网络训练的不稳定,进而生成图像质量不佳
。RNN(Recurrent Neural Networks)
是一种用于序列数据处理的神经网络结构,也可以用于图片去模糊任务


RNN
从前往后传递信息的特性导致其无法很好地处理双向依赖关系,在捕捉和保留输入序列中的重要信息时效果不佳

级联网络可以通过多阶段的处理逐步提高图像的质量,因此也被应用于去模糊任务

但级联网络中包含多个子网络,每个子网络都需要进行训练和优化,计算量相对比较大,导致训练和推理时间较长,而且容易导致过拟合问题


技术实现思路

[0004]本专利技术的目的在于,提出一种端到端的运动图像去模糊模型,其更关注模糊图像中的边缘信息和细节信息,从而满足后续目标检测等高级任务的需要

[0005]为实现上述目的,本申请提出的一种基于傅里叶变换的运动图像去模糊模型,包括:
[0006]在去模糊模型中设置三级对称编码器

解码器架构,编码器

解码器的
FDSA(frequency

domain self

attention mechanism)
在频域中估计缩放点积的注意力以提高模型对高频信息的感知能力;在编码器

解码器的前馈网络
FFDN(feedforward network)
中融合了模糊核级信息和像素级信息,并引入可学习的量化矩阵
M
以确定哪些频率信息值得保留;使用跨连接通道注意力模块
CCAM(cross

connection channel attention module)
作为编码器

解码器之间的信息交换组件;在编码器阶段连接了
Sobel
滤波器以增强边缘特征,帮助模型增强图像边缘的感知能力;对于损失函数使用内容损失函数
L
count

多尺度频率
重建损失函数
L
MSFR
以及辅助边缘损失函数
L
edge
,联合使用三个损失函数可以综合图像的感知质量和频域特性,引导模型专注于恢复去模糊图像中的高频分量

[0007]Transformer
可以利用自注意力机制捕捉图像中不同位置之间的依赖关系,从而更好地理解和重建模糊的图像

本专利技术通过将空间域
Transformer
转换成频域
Transformer
,从而更好地保留了图像中的细节信息和结构信息,进一步通过使用频域下的逐元素乘积替换空间域下的矩阵乘法以估计序列元素中的相关性,大大降低了计算的复杂性

具体来说,根据卷积定理,将两个信号的时域卷积
(
或相关
)
运算转换为这两个信号在频域中逐元素乘积

因此,通过频域中的逐元素乘积有效地估计注意力图,而不需要再计算空间域中的
QK
T
矩阵
(QK
T
为注意力权重矩阵,用于在输入序列的不同位置之间分配权重
)
,这将大大减少模型计算的复杂度

本专利技术将编码器

解码器中的自注意力机制命名为
FDSA(frequency

domain self

attention mechanism)。FDSA
首先通过1×1的点卷积和3×3的深度卷积得到
F
q
、F
k

F
v
,其中,
F
q
为查询
(Query)
特征,
F
k
为键
(Key)
特征,
F
v
为值
(Value)
特征

然后,对估计的特征
F
q

F
k
应用快速傅里叶变换,从而得到
F
q

F
k
在频域中的相关性

[0008]为了更加关注频域中的高频信息,本专利技术在编码器

解码器的前馈网络中添加了
Relu
残差流,将该前馈网络命名为
FFDN(feedforward network)。FFDN
中的
Relu
残差流在帮助模型学习模糊核信息的同时,更加关注频域中高频信息的恢复,另外在频域中的
Relu
操作也为前馈网络带来了全局学习的能力

将模糊图像在频域上进行
ReLU
操作后,进行傅里叶逆变换可以选择特定的频率生成模糊模式

通过
Relu
残差流,网络可以学习到模糊核级信息从而更好地完成图像去模糊的任务

本专利技术的
FFDN
可以将生成的模糊核级信息与像素级特征进行融合,具体来说:中间流首本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于傅里叶变换的运动图像去模糊模型,其特征在于:在去模糊模型中设置三级对称编码器

解码器架构,其编码器对输入的模糊图像进行处理,提取出其重要特征并转化为低维度表示,解码器接收来自编码器的低维特征,将低维度表示逐步恢复为高维度表示;在编码器

解码器中使用自注意力机制
FDSA
在频域中估计缩放点积的注意力;在编码器

解码器中使用前馈网络
FFDN
融合模糊核级信息和像素级信息,并引入可学习的量化矩阵
M
以确定哪些频率信息保留;使用跨连接通道注意力模块
CCAM
作为编码器

解码器之间的信息交换组件;所述编码器连接了
Sobel
滤波器以增强边缘特征;联合使用内容损失函数
L
count

多尺度频率重建损失函数
L
MSFR
以及辅助边缘损失函数
L
edge
,三个损失函数综合图像的感知质量和频域特性,引导模型专注于恢复模糊图像中的高频分量
。2.
根据权利要求1所述一种基于傅里叶变换的运动图像去模糊模型,其特征在于:给定模糊图像
I
,首先利用3×3卷积将模糊图像
I
转换为低阶特征
F0,其中
H
×
W
是空间维数,
C
为通道数;接下来,低阶特征
F0通过三级对称编码器

解码器架构得到深层特征
X0;三级编码器分级缩小空间尺寸,同时扩大通道容量,将特征转化为不同分辨率的多尺度特征
F1、F2和
F3,
3.
根据权利要求2所述一种基于傅里叶变换的运动图像去模糊模型,其特征在于:将多尺度特征
F1、F2和
F3输入跨连接通道注意力模块
CCAM
进行自适应特征融合得到三个尺度输出特征
X1、X2和
X3,将特征
X3直接输入第一级解码器,特征
X1、X2分别与自身上一级解码器输出特征加和作为对应解码器的输入,第三级解码器输出的深层特征
X0经过3×3卷积处理后与模糊图像
I
进行加和操作得到最终恢复图像
4.
根据权利要求1所述一种基于傅里叶变换的运动图像去模糊模型,其特征在于,在自注意力机制
FDSA
中,首先通过1×1的点卷积和3×3的深度卷积得到
F
q
、F
k

F
v
,其中,
F
q
为查询
Query
特征,
F
k
为键
Key
特征,
F
v
为值
Value
特征;然后,对估计的特征
F
q

F
k
应用快速傅里叶变换,从而得到
F
q

F
k
在频域中的相关性
。5.
根据权利要求1所述一种基于傅里叶变换的运动图像去模糊模型,其特征在于,融合模糊核级信息和像素级信息方式为:将模糊图像在频域上进行
ReLU
操作后,通过反傅里叶变换选择特定的频率来生成模糊模式;像素级信息通过前馈网络
FFDN
的中间流学习,模糊核级信息通过前馈网络
FFDN

ReLU
残差流学习,将生成的模糊核信息与像素级信息融合起来
。6.
根据权利要求5所述一种基于傅里叶变换的运动图像去模糊模型,其特征在于,前馈网络
FFDN
对输入特征进行层归一化得到层归一化张量;中间流实现过程为:层归一化张量首先通过1×1卷积,对得到的特征应用快速傅里叶变换获取频域特征,然后引入一个可学习的量化矩阵
M
,通过
JPEG
压缩算法的逆向学习,确定哪些频率信息应保留下来;具体的:将频域特征与量化矩阵
M
做逐元素相乘操作,并通过
反快速傅里叶变换恢复到像素级特征;其
FFDN
中间流的公式如下:其中,和分别是在
JPEG
压缩方法中将
patch
按照一定顺序展开成为一维向量的操作和将一维向量折叠成
patch
的操作,

表示元素逐位相乘操作,
GEGLU(<...

【专利技术属性】
技术研发人员:冯建新郝恩光杜玥张健豪丁元明方辉
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1