当前位置: 首页 > 专利查询>南京大学专利>正文

基于环绕式注意力机制的视频超分辨率重构方法、设备及介质技术

技术编号:38586711 阅读:9 留言:0更新日期:2023-08-26 23:28
基于环绕式注意力机制的视频超分辨率重构方法、设备及介质,构建一个视频超分辨率重构器,首先使用特征提取网络提取视频中每一帧图像的浅层特征;其次,将提取出的浅层特征分别以顺序和逆序的方式循环输入环绕式注意力对齐模块,以对齐每帧的特征及其邻帧的特征,再通过特征融合网络实现时序互补信息融合;最终,融合后的各帧特征通过上采样网络转化为具有更高分辨率的图像残差,叠加双线性插值后的原始图像,重构出具有更多细节的高分辨率视频。本发明专利技术所设计的环绕式注意力机制,能够简化视频超分辨率重构的流程,有效提高重构器的性能,并使其适用于重构运动量较大的视频输入。入。入。

【技术实现步骤摘要】
基于环绕式注意力机制的视频超分辨率重构方法、设备及介质


[0001]本专利技术属于计算机软件
,涉及视频超分辨率重构技术,具体为一种基于环绕式注意力机制的视频超分辨率重构方法、设备及介质。

技术介绍

[0002]视频超分辨率重构任务的目标是对于一个视频片段,将它重构为一个具有更高分辨率的视频,使得视频拥有更丰富的细节,视觉上更清晰。目前主流先进的视频超分辨率重构器主要采用两种范式,一种基于循环神经网络,在重构某帧图像时,对上一帧图像在重构过程中所产生的特征加以利用,循环执行这一过程,使每帧的重构过程能够利用之前处理过的所有帧的信息;另一种基于滑动窗口,以待重构的图像为中心,划分出一个图像窗口,然后利用窗口内所有图像的信息进行重构。基于循环神经网络的重构方法,由于能够利用更多帧的时序互补信息,因此效果往往更好;而基于滑动窗口的重构方法虽然可以并行重构每一帧,但由于未充分利用其他帧的信息,重构效果略差。此外,为了获取更好的重构效果,目前基于这两种范式的先进方法都被设计成两阶段过程:首先,引入一个运动估计网络对帧之间像素的运动信息进行预估;其次,使用预估的运动信息辅助不同帧特征的融合过程。这种两阶段过程的缺点是:首先,需要使用额外的训练数据对运动估计网络进行单独训练,才能确保预估的运动信息的准确性;其次,测试过程中需要同时部署并依次执行运动估计网络和视频超分辨率重构网络,导致重构流程复杂,且重构效果直接受限于运动估计网络的准确性。
[0003]近年出现了基于注意力机制的视频超分辨率重构方法,采用滑动窗口范式,使用注意力机制融合窗口内不同帧的信息,实现了单阶段的视频超分辨率重构,并取得了不错的重构效果。但这类方法的缺点是:首先,由于受限于滑动窗口范式,因此无法利用更多帧的时序互补信息,导致重构效果次优;其次,它们并未针对视频超分辨率重构问题对注意力机制进行改造,存在重构效果不精细、不适用于重构运动量较大的视频等问题。

技术实现思路

[0004]本专利技术要解决的问题是:主流视频超分辨率重构器无法端到端训练,同时重构流程复杂且重构效果受限于运动估计网络的准确性;新出现的基于注意力机制的视频超分辨率重构器存在重构效果受限于滑动窗口范式的问题,且未针对视频超分辨率重构问题对注意力机制进行改造,导致重构效果不精细、不适用于重构运动量较大的视频。
[0005]本专利技术的技术方案为:基于环绕式注意力机制的视频超分辨率重构方法,构建一个视频超分辨率重构器用于视频超分辨率重构,所述视频超分辨率重构器首先使用特征提取网络提取出视频各帧的浅层特征,然后将浅层特征分别以顺序和逆序的方式输入环绕式注意力对齐模块,循环对齐每帧及其邻帧的特征,再通过特征融合网络对每帧的浅层特征和邻帧的对齐特征进行融合,作为每帧的融合特征,最终利用上采样网络将各帧的融合特
征转化为具有更高分辨率的图像残差,叠加经过双线性插值的原始图像帧,重构出高分辨率视频,完成视频超分辨率重构任务;
[0006]其中环绕式注意力对齐模块包括顺序循环和逆序循环两种方式,顺序循环时,对于当前帧第i帧,以第i帧和第i

1帧的浅层特征s
i
,s
i
‑1以及第i

1帧的融合特征为输入,输出与第i帧对齐后的第i

1帧的对齐特征环绕式注意力对齐模块执行如下:
[0007]a)特征转换:对第i帧和第i

1帧的浅层特征s
i
,s
i
‑1以及第i

1帧的融合特征使用层归一化操作和卷积层进行特征转换,将它们分别转换为查询Q
i
、键K
i
‑1和值V
i
‑1,用于接下来的环绕式窗口划分,当i=1时,使用零值替代不存在的特征s
i
‑1和
[0008]b)环绕式窗口划分:首先,对查询Q
i
进行均匀划分,获得N个大小为p
×
p的查询窗口,将第j个查询窗口记为Q
i,j
;其次,对每个查询窗口Q
i,j
,在键K
i
‑1和值V
i
‑1上分别划分出大小均为(1+δ)
×
p
×
(1+δ)
×
p的键窗口K
i

1,j
和值窗口V
i

1,j
,三个窗口的中心在同一位置且δ>0,因此K
i

1,j
和V
i

1,j
环绕Q
i,j
,后续将第i帧的查询窗口特征与第i

1帧的环绕式键、值窗口特征进行对齐,进而融合邻帧的时序互补信息;
[0009]c)软硬性注意力对齐:首先,将N组查询窗口、键窗口和值窗口分组输入一个软性注意力模块,对于每组窗口,基于查询窗口和键窗口的特征进行像素级别的注意力权重计算,其次使用计算得到的注意力权重对值窗口的特征进行加权求和,加权所得的特征融合了第i

1帧中与第i帧相关的信息;同时,将每组中计算的注意力权重和值窗口输入一个硬性注意力模块,硬性注意力模块从值窗口内筛选出具有最大注意力权重的特征,该特征保留第i

1帧中与第i帧相关的高频信息;最后,将软、硬性注意力模块输出的特征进行拼接,通过卷积层和多层感知机进行特征映射,得到与第i帧对齐后的第i

1帧的对齐特征
[0010]同理,逆序循环时,对于当前帧第i帧,以第i帧和第i+1帧的浅层特征s
i
,s
i+1
以及第i+1帧的融合特征为输入,输出与第i帧对齐后的第i+1帧的对齐特征
[0011]进一步的,所述视频超分辨率重构器的实现包括网络配置阶段、训练阶段以及测试阶段:
[0012]1)网络配置阶段:构建基于环绕式注意力机制的视频超分辨率重构器的网络框架,包括以下配置:
[0013]1.1)特征提取网络:使用基于卷积层和残差块的特征提取网络对视频中的每帧图像进行特征提取,得到编码每帧图像空间信息的浅层特征,将第i帧的浅层特征记为s
i

[0014]1.2)环绕式注意力对齐模块:使用基于环绕式注意力机制的对齐模块分别以顺序和逆序的方式循环对齐视频帧特征;
[0015]1.3)特征融合网络:根据环绕式注意力对齐模块的顺序和逆序循环方式,顺序循环方式下,当执行视频的第i帧时,输入为第i帧的浅层特征s
i
以及与第i帧对齐后的第i

1帧的对齐特征特征融合网络将两部分特征输入进行拼接,然后基于卷积层和残差块进行特征融合,利用中的时序互补信息来恢复出第i帧的细节,融合后的第i帧融合特征记为同理,逆序循环方式下,特征融合网络将第i帧的浅层特征s
i
以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于环绕式注意力机制的视频超分辨率重构方法,其特征是构建并通过端到端训练的方式得到一个视频超分辨率重构器用于视频超分辨率重构,所述视频超分辨率重构器首先使用特征提取网络提取出视频各帧的浅层特征,然后将浅层特征分别以顺序和逆序的方式输入环绕式注意力对齐模块,循环对齐每帧及其邻帧的特征,再通过特征融合网络对每帧的浅层特征和邻帧的对齐特征进行融合,作为每帧的融合特征,最终利用上采样网络将各帧的融合特征转化为具有更高分辨率的图像残差,叠加经过双线性插值的原始图像帧,重构出高分辨率视频,完成视频超分辨率重构任务;其中环绕式注意力对齐模块包括顺序循环和逆序循环两种方式,顺序循环时,对于当前帧第i帧,以第i帧和第i

1帧的浅层特征s
i
,s
i
‑1以及第i

1帧的融合特征为输入,输出与第i帧对齐后的第i

1帧的对齐特征环绕式注意力对齐模块执行如下:a)特征转换:对第i帧和第i

1帧的浅层特征s
i
,s
i
‑1以及第i

1帧的融合特征使用层归一化操作和卷积层进行特征转换,将它们分别转换为查询Q
i
、键K
i
‑1和值V
i
‑1,用于接下来的环绕式窗口划分,当i=1时,使用零值替代不存在的特征s
i
‑1和b)环绕式窗口划分:首先,对查询Q
i
进行均匀划分,获得N个大小为p
×
p的查询窗口,将第j个查询窗口记为Q
i,j
;其次,对每个查询窗口Q
i,j
,在键K
i
‑1和值V
i
‑1上分别划分出大小均为(1+δ)
×
p
×
(1+δ)
×
p的键窗口K
i

1,j
和值窗口V
i

1,j
,三个窗口的中心在同一位置且δ>0,因此K
i

1,j
和V
i

1,j
环绕Q
i,j
,后续将第i帧的查询窗口特征与第i

1帧的环绕式键、值窗口特征进行对齐,进而融合邻帧的时序互补信息;c)软硬性注意力对齐:首先,将N组查询窗口、键窗口和值窗口分组输入一个软性注意力模块,对于每组窗口,基于查询窗口和键窗口的特征进行像素级别的注意力权重计算,其次使用计算得到的注意力权重对值窗口的特征进行加权求和,加权所得的特征融合了第i

1帧中与第i帧相关的信息;同时,将每组中计算的注意力权重和值窗口输入一个硬性注意力模块,硬性注意力模块从值窗口内筛选出具有最大注意力权重的特征,该特征保留第i

1帧中与第i帧相关的高频信息;最后,将软、硬性注意力模块输出的特征进行拼接,通过卷积层和多层感知机进行特征映射,得到与第i帧对齐后的第i

1帧的对齐特征同理,逆序循环时,对于当前帧第i帧,以第i帧和第i+1帧的浅层特征s
i
,s
i+1
以及第i+1帧的融合特征为输入,输出与第i帧对齐后的第i+1帧的对齐特征2.根据权利要求1所述的基于环绕式注意力机制的视频超分辨率重构方法,其特征是所述视频超分辨率重构器的实现包括网络配置阶段、训练阶段以及测试阶段:1)网络配置阶段:构建基于环绕式注意力机制的视频超分辨率重构器的网络框架,包括以下配置:1.1)特征提取网络:使用基于卷积层和残差块的特征提取网络对视频中的每帧图像进行特征提取,得到编码每帧图像空间信息的浅层特征,将第i帧的浅层特征记为s
i
;1.2)环绕式注意力对齐模块:使用基于环绕式注意力机制的对齐模块分别以顺序和逆序的方式循环对齐视频帧特征;1.3)特征融合网络:根据环绕式注意力对齐模块的顺序和逆序循环方式,顺序循环方
式下,当执行视频的第i帧时,输入为第i帧的浅层特征s
i
以及与第i帧对齐后的第i

1帧的对齐特征特征融合网络将两部分特征输入进行拼接,然后基于卷积层和残差块进行特征融合,利用中的时序互补信息来恢复出第i帧的细节,融合后的第i帧融合特征记为同理,逆序循环方式下,特征融合网络将第i帧的浅层特征s
i
以及第i+1帧的对齐特征进行特征融合,得到第i帧的融合特征1.4)上采样网络:对第i帧,上采样网络以和为输入,将两种融合特征拼接后,通过卷积层以及像素洗牌操作,输出高分辨率的第i帧图像残差;其次,通过双线性插值算法,直接放大第i帧的原始图像;最终,叠加第i帧的图像残差和放大的原始图像,得到高分辨率版本的第i帧图像,获取所有帧的高分辨率版本后,生成高分辨率视频,完成视频超分辨率重构任务;2)训练阶段:给定高分辨率视频真值,分别使用双三次下采样和高斯模糊下采样的低分辨率版本视频,对步骤1)中配置的视频超分辨率重构网络进行训练,使产出的重构网络适用于重构不同类型的视频,训练中,使用Charbonnier损失函数计算网络重构出的高分辨率视频与真实高分辨率视频的损失,使用Adam优化器和反向传播算法更新网络参数,并采用余弦退火策略来更新学习率,不断重复以上过程,直至达到网络最大迭代次数;3)测试阶段:将经过双三次下采样或高斯模糊下采样的视频输入到对应的完成训练的视频超分辨率重构器中,得到高分辨率版本的重构视频,进行视频超分辨率重构器的性能度量。3.根据权利要求2所述的基于环绕式注意力机制的视频超分辨率重构方法,其特征是步骤1.1)具体为:令s
i
表示特征提取网络为第i帧提取的浅层特征,其计算公式为:s
i
=Res5(LReLU(Conv(x
i
)))其中表示待重构的第i帧RGB图像,Conv表示使用卷积层将RGB图像映射到C维特征空间,LReLU表示LeakyReLU激活函数,Res5表示5个依次叠加的残差块,每个残差块包含两个卷积层、中间的LeakyReLU激活函数以及残差连接,网络中所有卷积层感受野大小为3*3,除第一个卷积层将RGB图像映射到C维特征空间以外,其他卷积层保持特征维数不变,所有卷积层不对特征图进行下采样,输出的第i帧浅层特征为4.根据权利要求2所述的基于环绕式注意力机制的视频超分辨率重构方法,其特征是环绕式注意力对齐模块的顺序循环执行方式下,在处理第i帧图像时的具体实现为:1.2.1)特征转换:Q
i
=Conv(LayerNorm(s
i
))K
i
‑1=Conv(LayerNorm(s
i
‑1))其中,s
i
、s
i
‑1和分别表示第i帧浅层特征、第i

1帧浅层特征以及第i

1帧的融合特征,当i=1时,s
i
‑1和为默认填充值零;LayerNorm表示层归一化操作,Conv表示感受野大小为3*3的卷积层;表示转换后的查询、键和值;
1.2.2)环绕式窗口划分:给定转换得到的查询将其划分为N个大小为p
×
p的查询窗口,第j个查询窗口Q
i,j

【专利技术属性】
技术研发人员:王利民陈叔炜武港山
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1