当前位置: 首页 > 专利查询>福州大学专利>正文

基于线性稀疏注意力Transformer的视频去摩尔纹方法技术

技术编号:34491466 阅读:11 留言:0更新日期:2022-08-10 09:10
本发明专利技术提出一种基于线性稀疏注意力Transformer的视频去摩尔纹方法,训练基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现在训练完成后对输入的视频去除摩尔纹;所述基于线性稀疏注意力Transformer的视频去摩尔纹网络包括:特征提取模块,用于对视频帧进行特征提取;空间Transformer模块,以使用空间Transformer的空间注意力捕捉单帧图像中存在摩尔纹的位置并进行重点去除;时间Transformer模块,以使用时间Transformer的时间注意力捕捉多帧图像间存在的互补信息,并利用相邻帧的互补信息进行图像恢复;以及,图像重建模块,用于将经过空间Transformer模块和时间Transformer模块的视频帧特征进行解码,恢复成与输入视频尺度相同的去摩尔纹视频帧。恢复成与输入视频尺度相同的去摩尔纹视频帧。恢复成与输入视频尺度相同的去摩尔纹视频帧。

【技术实现步骤摘要】
基于线性稀疏注意力Transformer的视频去摩尔纹方法


[0001]本专利技术属于视频处理、计算机视觉
,尤其涉及一种基于线性稀疏注意力Transformer的视频去摩尔纹方法。

技术介绍

[0002]随着移动设备和多媒体技术的快速发展,智能手机已成为日常生活中不可或缺的工具,在拍摄质量提高的支持下,移动摄影的普及程度也在不断提高。图像和视频是现代人类交流和传递信息的不可或缺的一部分,对社会各方面的发展具有重要意义。数字屏幕在现代日常生活中普遍存在,例如家里的电视屏幕、电脑和公共场所的大型LED屏幕,利用手机拍摄这些屏幕来快速保存信息是常见的做法,有时拍摄图像和视频是保存信息的唯一实用方法。然而,在拍摄数码屏幕时,摩尔纹图案经常出现并污染底层干净的图像和视频。摩尔纹是由相机滤色器阵列(CFA)和屏幕的子像素布局之间互相干扰所引起的,导致拍摄的图像和视频中出现颜色扭曲的条纹,严重降低图像和视频的视觉质量。计算机视觉的发展以及硬件的升级为这个问题的实现带来了可能,因此不少研究者开始投入到图像去除摩尔纹的研究中,但是视频去摩尔纹问题现在仍然鲜有人研究。
[0003]移除摩尔纹是一项有挑战性的工作,因为摩尔纹的形状和颜色都是不规则的,并且它横跨低频与高频。与其他图像和视频恢复任务不同,例如图像或视频去噪、图像去马赛克和图像或视频超分辨率,摩尔纹去除任务需要应对复杂的低频与高频摩尔条纹,还要恢复图像和视频中的细节,同时摩尔纹还会影响拍摄的图像出现色差。由于摩尔纹的形成与相机成像过程密切相关,尤其是滤色片阵列(CFA)的频率。因此,许多人已经提出了旨在改善成像管道的方法来消除摩尔条纹。但这些方法具有很高的运算复杂性,不适合实际应用。2018年,Sun等人创建了一个大规模的包含十万多个图像对的去摩尔纹基准数据集——TIP2018数据集,并提出一种新颖的多分辨率全卷积网络来去除摩尔纹,极大推动了图像去摩尔纹任务的发展。而视频去摩尔纹相较于图像去摩尔纹更加困难,它不能简单的使用图像去摩尔纹的方法逐帧去除摩尔纹,因为这会导致视频引入伪影和闪烁,同时无法保证帧间的时间相干性,性能无法让人满意。所以急需有专门用来解决视频去摩尔纹任务的新方法。
[0004]视频去摩尔纹具有重要的现实意义,对于数量基数巨大的数字视频而言,人们手动地实现去除视频中的摩尔纹,将会耗费极大的人力和时间成本。而视频去摩尔纹算法恰恰解决了这一问题,开发者只需使用训练好的视频去摩尔纹网络,即可利用网络自动去除视频中的摩尔纹,避免了重复性劳动,节省大量的时间。但是,由于视频去摩尔纹任务鲜有人研究,且不能简单使用图像去摩尔纹方法来解决视频去摩尔纹任务,因此,该任务仍有待研究。

技术实现思路

[0005]为了弥补现有技术的空白和不足,本专利技术提出一种基于线性稀疏注意力
Transformer的视频去摩尔纹方法,基于所设计的基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现高质量的视频去摩尔纹。
[0006]本专利技术具体采用以下技术方案:
[0007]一种基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:训练基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现在训练完成后对输入的视频去除摩尔纹;
[0008]所述基于线性稀疏注意力Transformer的视频去摩尔纹网络包括:
[0009]特征提取模块,用于对视频帧进行特征提取;
[0010]空间Transformer模块,以使用空间Transformer的空间注意力捕捉单帧图像中存在摩尔纹的位置并进行重点去除;
[0011]时间Transformer模块,以使用时间Transformer的时间注意力捕捉多帧图像间存在的互补信息,并利用相邻帧的互补信息进行图像恢复;
[0012]以及,图像重建模块,用于将经过空间Transformer模块和时间Transformer模块的视频帧特征进行解码,恢复成与输入视频尺度相同的去摩尔纹视频帧。
[0013]进一步地,所述特征提取模块的输入是同一个摩尔纹视频内相邻的五个视频帧,其中输入的视频帧用I
t
表示,其大小为3
×
H
×
W,t∈[1,5];该模块由四个卷积块和三个池化层组成,卷积块负责抽取图像特征,池化层采用2
×
2的平均池化层来缩小特征尺度;将视频帧I
t
输入到第一个卷积块中,得到特征图其大小为C
×
H
×
W,将送入池化层和第二个卷积块,得到特征图其大小为相同的,将送入池化层和第三个卷积块得到将送入到池化层和最后一个卷积块得到和大小分别为和
[0014]每个所述卷积块由一个卷积层、一个激活层、一个卷积层和一个激活层按序组成;其中,两个激活层都采用ReLu激活函数,两个卷积层都采用卷积核为3
×
3的卷积,第一个卷积层实现通道数的变化,而第二个卷积层则维持通道数不变。
[0015]进一步地,所述空间Transformer模块由九个线性稀疏注意力去摩尔纹层和一个绝对位置编码组成;
[0016]其中第一层的输入是特征提取模块的特征图后续每一层的输入为前一层的输出,最后一层的输出特征图F
t
为空间Transformer模块的最终输出,每一层在线性的时间复杂度内计算出特征图的空间注意力;
[0017]所述绝对位置编码是和尺度相同的可学习矩阵,并且在训练之前使用Xavier初始化方法对该矩阵进行参数初始化;
[0018]所述线性稀疏注意力去摩尔纹层由一个空间自注意力层、一个随机失活层、一个归一化层、一个多层感知机、一个随机失活层和一个归一化层按序组成;两个随机失活层都将神经元失活概率设置为0.1,两个归一化层采用层归一化;多层感知机由第一全连接层、激活层和第二全连接层按序组成,激活层采用ReLu激活函数;在将输入特征图送入空间自注意力层之前,先将特征图与绝对位置编码进行逐元素相加,再送入空间自注意力层中;加
上绝对位置编码的输入特征图和第一个随机失活层的输出存在残差连接,第一个归一化层的输出和第二个随机失活层的输出存在残差连接;
[0019]所述空间自注意力层由四个可学习矩阵组成,分别为Query权重矩阵W
q
、Key权重矩阵W
k
、Value权重矩阵W
v
和瓶颈矩阵W
p
;该层的计算公式如下:
[0020]Q=Dot(W
q
,F
in
)
[0021]K=Dot(W
k
,F
in
)
[0022]V=Dot(W
v
,F
in
)
[0023]H=Dot(Softmax(Q),Dot(Softmax(K
T
),V))
[0024]F<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:训练基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现在训练完成后对输入的视频去除摩尔纹;所述基于线性稀疏注意力Transformer的视频去摩尔纹网络包括:特征提取模块,用于对视频帧进行特征提取;空间Transformer模块,以使用空间Transformer的空间注意力捕捉单帧图像中存在摩尔纹的位置并进行重点去除;时间Transformer模块,以使用时间Transformer的时间注意力捕捉多帧图像间存在的互补信息,并利用相邻帧的互补信息进行图像恢复;以及,图像重建模块,用于将经过空间Transformer模块和时间Transformer模块的视频帧特征进行解码,恢复成与输入视频尺度相同的去摩尔纹视频帧。2.根据权利要求1所述的基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:所述特征提取模块的输入是同一个摩尔纹视频内相邻的五个视频帧,其中输入的视频帧用I
t
表示,其大小为3
×
H
×
W,t∈[1,5];该模块由四个卷积块和三个池化层组成,卷积块负责抽取图像特征,池化层采用2
×
2的平均池化层来缩小特征尺度;将视频帧I
t
输入到第一个卷积块中,得到特征图其大小为C
×
H
×
W,将送入池化层和第二个卷积块,得到特征图其大小为相同的,将送入池化层和第三个卷积块得到将送入到池化层和最后一个卷积块得到和大小分别为大小分别为和每个所述卷积块由一个卷积层、一个激活层、一个卷积层和一个激活层按序组成;其中,两个激活层都采用ReLu激活函数,两个卷积层都采用卷积核为3
×
3的卷积,第一个卷积层实现通道数的变化,而第二个卷积层则维持通道数不变。3.根据权利要求2所述的基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:所述空间Transformer模块由九个线性稀疏注意力去摩尔纹层和一个绝对位置编码组成;其中第一层的输入是特征提取模块的特征图后续每一层的输入为前一层的输出,最后一层的输出特征图F
t
为空间Transformer模块的最终输出,每一层在线性的时间复杂度内计算出特征图的空间注意力;所述绝对位置编码是和尺度相同的可学习矩阵,并且在训练之前使用Xavier初始化方法对该矩阵进行参数初始化;所述线性稀疏注意力去摩尔纹层由一个空间自注意力层、一个随机失活层、一个归一化层、一个多层感知机、一个随机失活层和一个归一化层按序组成;两个随机失活层都将神经元失活概率设置为0.1,两个归一化层采用层归一化;多层感知机由第一全连接层、激活层和第二全连接层按序组成,激活层采用ReLu激活函数;在将输入特征图送入空间自注意力层之前,先将特征图与绝对位置编码进行逐元素相加,再送入空间自注意力层中;加上绝对位置编码的输入特征图和第一个随机失活层的输出存在残差连接,第一个归一化层的输
出和第二个随机失活层的输出存在残差连接;所述空间自注意力层由四个可学习矩阵组成,分别为Query权重矩阵W
q
、Key权重矩阵W
k
、Value权重矩阵W
v
和瓶颈矩阵W
p
;该层的计算公式如下:Q=Dot(W
q
,F
in
)K=Dot(W
k
,F
in
)V=Dot(W
v
,F
in
)H=Dot(Softmax(Q),Dot(Softmax(K
T
),V))F
out
=Dot(W
p
,H)其中,F
in
为空间自注意力层的输入,F
out
为空间自注意力层的输出,Q、K和V分别为Query矩阵、Key矩阵和Value矩阵,K
T
表示K矩阵的转置矩阵,H为空间自注意力层的注意力特征图,Dot()表示矩阵乘法计算;Q、K和W
v
都是在L2损失函数约束下的稀疏矩阵。4.根据权利要求3所述的基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:所述时间Transformer模块的输入为空间Transformer模块的最终输出F
t
;由四个时间注意力去摩尔纹层、一个绝对位置编码和一个绝对时间编码组成;该绝对位置编码与空间Transformer模块的绝对位置编码共享参数;所述绝对时间编码是一个尺度为5
×
8C
×1×
1的可学习矩阵,在训练之前使用Xavier初始化方法对该矩阵进行参数初始化;第一个时间注意力去摩尔纹层的输入为五个视频帧对应的F
t
,后续每一层的输入为前一层的输出,最后一层对第t帧的输出特征图为时间Transformer模块对t帧的最终输出;所述时间注意力去摩尔纹层由一个时间自注意力层、一个随机失活层、一个归一化层、一个空间自注意力层、一个随机失活层、一个归一化层、一个多层感知机、一个随机失活层和一个归一化层按序组成;三个随机失活层都将神经元失活概率设置为0.1,三个归一化层都采用层归一化,多层感知机由一个全连接层、一个激活层和一个全连接层按序组成,激活层采用ReLu激活函数;所述空间自注意力层的结构与线性稀疏注意力去摩尔纹层中的空间自注意力层的结构相同;在将输入特征图送入时间自注意力层之前,先将输入的五个视频帧的特征图在时间维度上进行拼接,之后将拼接好的特征图与绝对时间编码进行逐元素相加,再送入到时间自注意力层中,而当特征图输入到空间自注意力层前,需要先将拼接的特征图按视频帧拆分开来,之后需要加上空间Transformer的绝对位置编码;加上绝对时间编码的输入特征图和第一个随机失活层的输出存在残差连接,加上绝对位置编码的特征图和第二个随机失活层的输出存在残差连接,第二个归一化层的输出和第三个随机失活层的输出存在残差连接;所述时间自注意力层由四个可学习矩阵组成,分别为Query权重矩阵W

q
、Key权重矩阵W

k
、Value权重矩阵W

v
和瓶颈矩阵W

p
;该层的计算公式如下:;该层的计算公式如下:
K
a
=[K1,K2,

,K5]V
a
=[V1,V2,

,V5]H
t
(i,j)=Dot(Softmax(Dot(Q
t
(i,j),(K
a
(i,j))
T
)),V
a
(i,j))F
out
=Dot(W

p
,H)其中,t表示第t帧,t∈[1,5],为时间自注意力层中属于第t帧的输入特征,F
out
为时间自注意力层的输出,Q
t
、K
t
和V
t
分别为属于第t...

【专利技术属性】
技术研发人员:牛玉贞林志华刘文犀
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1