当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于可变形3D卷积网络的视频超分方法和系统技术方案

技术编号:37957861 阅读:8 留言:0更新日期:2023-06-30 09:31
本发明专利技术提供了一种基于可变形3D卷积网络的视频超分方法和系统,所述方法包括:将低分辨率LR视频参考帧及其相邻的支持帧输入可变形3D卷积网络,经过可变形3D卷积网络的处理得到一个高分辨率HR视频帧;可变形3D卷积网络的处理包括:浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。本发明专利技术提出了一种基于先验框的轻量化可变形网络用于视频超分任务,并结合其数据依赖关系和计算特点设计了一种高效的硬件加速器,相比现有的加速方案可以实现更高的视频重建质量,在吞吐率和能效方面提升2.75倍和1.63倍。效方面提升2.75倍和1.63倍。效方面提升2.75倍和1.63倍。

【技术实现步骤摘要】
一种基于可变形3D卷积网络的视频超分方法和系统


[0001]本专利技术涉及一种基于可变形3D卷积网络的视频超分方法和系统。

技术介绍

[0002]作为计算机视觉领域的底层处理任务,视频超分辨率(Video Super

Resolution,VSR)的基本思想是通过收集相邻帧的时间和空间信息,为低分辨率(Low

Resolution,LR)视频图像重建高分辨率(High

Resolution,HR)视频图像,通过恢复视频图像中的高频纹理细节,使模糊的LR视频流更加清晰并能够支持更加高清的显示设备。
[0003]近年来卷积神经网络(Convolutional Neural Network,CNN)相比于传统的插值方法在VSR领域取得巨大突破,然而较高的计算资源需求使先进的CNN模型通常需要借助高性能的图形处理单元集群来执行,难以在资源有限的移动设备上部署,因此,实现高速度、低功耗的VSR加速器对于提升重建质量、改善用户体验非常重要。目前常用的方法是逐帧执行单一图像超分辨率(Single Image Super

Resolution,SISR),虽然算法的复杂度较低,但往往忽视了视频的帧间连续性,致使VSR的性能下降。
[0004]作为CNN模型的新型变体,可变形卷积神经网络(Deformable Convolutional Network,DCN)可以通过增强模型的多帧对齐能力,有效地补偿帧间连续性并提高VSR的性能。究其原因在于,DCN提取的偏移量与视频中隐含的光流信息具有极其相似的模式,而与典型的光流提取方法相比,DCN可以在紧致的特征空间中通过提高偏移量的多样性,从而捕获更好的对齐特征并提高重建质量,但这也对在资源有限的端侧设备上部署提出更高的要求。
[0005]由于DCN与典型的CNN、反卷积网络和循环网络(Recurrent Neural Network,RNN)等存在较大差异,因此,直接将现有加速器直接用于执行DCN将严重降低计算效率,甚至使加速器无法正常运转。究其原因在于,首先,动态生成的偏移量使DCN能够对任意位置的像素特征进行采样,而非按照常规滑窗顺序,这会导致不规则的内存访问模式。不仅如此,不规则的访存模式会引发严重的访问冲突,危害并行设计,也牺牲输入重用的机会。其次,灵活的采样位置可能会强制处理模块访问未加载到片上的一些像素特征,这会加剧存储负担。最后,由于需要进行额外的偏移生成和相邻特征插值运算,DCN会不可避免地引入大量的计算开销。尽管现有大量的研究通过约束偏移量的大小、形状和多样性等来限制不规则的感受野使DCN变得硬件友好,但这些过度的简化会导致不准确的运动估计,从而严重影响VSR的帧间连续性,而且现有的DCN专用加速器还不能解决在保证采样范围足够灵活的情况下实时地处理VSR任务。
[0006]相机或者目标的随机运动通常会导致多帧未对齐,为了探索帧间相关性信息,成熟的VSR方法一般采用显式或者隐式的对齐机制挖掘互补的子像素特征,但是不准确的运动估计和运动补偿方案会导致模糊的视频质量。与传统光流估计网络中的显式对齐机制相比,DCN可以在特征层面隐式对齐相邻帧,从而更加准确地对运动信息进行建模。D3DNet是一种典型处理手段,通过融合时空特征和运动信息,可以自适应地感知亮度变化和物体移
动情况。然而,由于较高的计算复杂度(参数量为2.58M,完成一帧4倍超分到分辨率为1280
×
720的视频图像的计算量为408.82GFLOPs,在RTX2080Ti GPU上的推理时间为45.2s),这种先进的VSR方法难以在端侧设备上有效部署。
[0007]基于FPGA的超分辨率方法主要分为SISR和VSR两种。SISR是利用空间信息逐帧对LR视频图像进行上采样,然而,由于忽略了关键的时间信息,而且模型的拟合能力有限,尽管可以达到较快的处理速度,但由于牺牲了上采样视频流的一致性,导致重建视频的视觉效果有损失。VSR方法通过结合多个相邻的LR帧并融合空间和时间特征从而上采样目标帧。例如,ERVSR采用轻量化的RNN模型探索潜在的帧间相关性,然而基于RNN的VSR方法需要大量的内存资源存储隐藏状态以实现并行处理,而且由于缺乏有效的帧间对齐机制,因此该方法也难以适应快速变化的运动。迄今为止,几乎没有研究尝试将帧间对齐机制融入到VSR硬件加速器中。

技术实现思路

[0008]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于可变形3D卷积网络的视频超分方法,包括:将低分辨率LR视频参考帧及其Niz

1个相邻的支持帧输入可变形3D卷积网络,经过可变形3D卷积网络的处理,得到一个高分辨率HR视频帧其中,Nix,Niy,Nif分别为低分辨率LR视频帧图像的高度、宽度和通道数,s为上采样因子,表示低分辨率LR视频参考帧第Niz

1个相邻的支持帧,表示sNix
×
sNiy
×
Nif维的实数空间;
[0009]所述可变形3D卷积网络的处理包括如下阶段:浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。
[0010]所述浅层特征提取包括:使用深度可分离的3D卷积层提取时空信息,所述深度可分离的3D卷积层包括逐通道3D卷积层DwConv3D和逐点3D卷积层PwConv3D。
[0011]所述隐式特征对齐包括:输入Niz帧特征,根据块解耦的计算策略TDS实施隐式特征对齐,具体方法是对从浅层特征提取阶段获得的中间特征序列进行划分,从而保证隐式特征对齐阶段的所有层都以块的粒度而非整个中间特征序列执行;隐式特征对齐阶段包括两个以上的可变形3D卷积残差块ResD3D(Residual Deformable 3D Block),每个可变形3D卷积残差块ResD3D块是基于移位的可变形3D卷积SDfConv3D堆叠的,用于同时执行空间变形和时间对齐,使用残差学习策略提高模型训练过程的收敛性。输入和输出块的尺寸相同,并且输入特征和输出特征数量一致。输入块和输出块就是依据TDS策略,这个阶段是在块的粒度上执行,所以ResD3D的输入特征和输出特征都是块。输入特征和输出特征的数量指的是输入块的特征通道数和输出块的特征通道数,对应前面的Nif。通过隐式特征对齐最终得到Niz帧对齐特征。
[0012]所述基于块解耦的计算策略TDS包括:将Niz帧特征在空间维度上分解为两个以上重叠块,隐式特征对齐阶段是以块为单位执行,每次循环仅处理一个块。
[0013]所述空时特征融合包括:将获得的Niz帧对齐特征通过时序平均池化函数TAP(Temporal Average Pooling)在时间维度上进一步聚合,然后由深度可分离的2D卷积层搭
建的2D卷积残差块ResC2D(Residual Convolutional 2D Block)负责捕获空间特征。
[0014]所述高分辨率HR视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可变形3D卷积网络的视频超分方法,其特征在于,包括:将低分辨率LR视频参考帧及其Niz

1个相邻的支持帧输入可变形3D卷积网络,经过可变形3D卷积网络的处理,得到一个高分辨率HR视频帧其中,Nix,Niy,Nif分别为低分辨率LR视频帧图像的高度、宽度和通道数,s为上采样因子,表示低分辨率LR视频参考帧第Niz

1个相邻的支持帧,表示sNix
×
sNiy
×
Nif维的实数空间;所述可变形3D卷积网络的处理包括如下阶段:浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。2.根据权利要求1所述的方法,其特征在于,所述浅层特征提取包括:使用深度可分离的3D卷积层提取时空信息,所述深度可分离的3D卷积层包括逐通道3D卷积层DwConv3D和逐点3D卷积层PwConv3D。3.根据权利要求2所述的方法,其特征在于,所述隐式特征对齐包括:输入Niz帧特征,根据块解耦的计算策略TDS实施隐式特征对齐,具体方法是对从浅层特征提取阶段获得的中间特征序列进行划分,从而保证隐式特征对齐阶段的所有层都以块的粒度而非整个中间特征序列执行;隐式特征对齐阶段包括两个以上的可变形3D卷积残差块ResD3D,每个可变形3D卷积残差块ResD3D块是基于移位的可变形3D卷积SDfConv3D堆叠的,用于同时执行空间变形和时间对齐,使用残差学习策略提高模型训练过程的收敛性;输入和输出块的尺寸相同,并且输入特征和输出特征数量一致;输入特征和输出特征的数量指的是输入块的特征通道数和输出块的特征通道数;通过隐式特征对齐最终得到Niz帧对齐特征。4.根据权利要求3所述的方法,其特征在于,所述基于块解耦的计算策略TDS包括:将Niz帧特征在空间维度上分解为两个以上重叠块,隐式特征对齐阶段是以块为单位执行,每次循环仅处理一个块。5.根据权利要求4所述的方法,其特征在于,所述空时特征融合包括:将获得的Niz帧对齐特征通过时序平均池化函数TAP在时间维度上进一步聚合,然后由深度可分离的2D卷积层搭建的ResC2D模块负责捕获空间特征。6.根据权利要求5所述的方法,其特征在于,所述高分辨率HR视频帧重建包括:将空间特征传播到上采样模块以重构视频超分辨率VSR结果,引入一种基于先验框的残差学习策略代替传统残差连接中的逐像素插值:在基于先验框的残差连接路径上将低分辨率LR视频参考帧复制s2次并连接成一个序列I
z

就会在上采样模块中变成最终超分辨率SR视频帧的先验框图,所述先验框图包含低分辨率LR视频参考帧中的低频分量。7.根据权利要求6所述的方法,其特征在于,所述基于移位的可变形3D卷积SDfConv3D包括移位逐点3D卷积层SPwConv3D、移位双线性插值层SBilinear和两个以上普通可分离3D卷积层。8.根据权利要求7所述的方法,其特征在于,所述基于移位的可变形3D卷积SDfConv3D的处理过程包括:步骤a1,偏移生成:所述基于移位的可变形3D卷积SDfConv3D以块粒度执行,对于第i个
输入块得到对应预测的偏移量对于像素偏移生成过程H
Ψ
表示为:其中,是像素在空间维度的坐标,是像素在时间维度的坐标,是像素在空间维度上的第n对坐标偏移量,表示一个尺寸为Nkx
×
Nky
×
Nkz=3
×3×
3的三维采样网格,而且Nkx、Nky分别表示三维采样网格在空间维度上的宽和高,Nkz是三维采样网格在时间维度上的帧数,偏移量的通道数量为Tix
×
Tiy表示每一个输入块的空间尺寸,Tix表示输入块的宽,Tiy表示输入块的高;偏移生成过程H
Ψ
包括一系列级联的普通可分离3D卷积层和一个移位逐点3D卷积层SPwConv3D;对于移位逐点3D卷积层SPwConv3D,其权重表示为2的幂次方:其中s和p分别表示符号翻转和移位,Nof表示输出特征图的数量,sgn表示符号函数;移位逐点3D卷积层SPwConv3D的完整计算过程用移位和加法表示如下:其中,和分别表示第m个输入特征图和第j个输出特征图,*表示卷积运算;表示SPwConv3D的第m个输入通道、第j个输出通道的权重;s
j,m
表示得到的第m个输入通道、第j个输出通道的符号值;步骤a2,空间变形:通过公式(1)得到变形后的感受野,变形后的感受野包括如下部分:当前像素的坐标由三维采样网格得到个以当前像素为中心的常规坐标偏移量为中心的常规坐标偏移量表示当前像素在空间维度上预测的动态偏移量,目的是用于实现SDfConv3D的空间变形和时间对齐;变形后的感受野中每个元素的坐标表示为:其中,是当前像素在空间维度上的第n对坐标值;是当前像素在时间维度上的第n个坐标值;
表示三维采样网格中元素的坐标,表示三维采样网格的第n个网格的空间维度坐标值;表示三维采样网格的第n个网格的时间维度坐标值;中每对坐标就对应中每对坐标就对应和分别是的小数部分和的小数部分;引入双线性插值函数G(
·
),G(
·
)表示为:其中,T表示矩阵转置;将变形后坐标的整数部分和小数部分分别转化为每个特征图的插值系数向量U和采样像素向量V:其中,和都是共享参数;为了减少公式(5)中的乘法运算数量,U的每个元素u
d
利用下式表示为L个2的幂次方的系数:其中表示码本集,表示第l个码本集,每个码本包含M个候选元素,Ω
d
表示为u
d
搜索的2的幂次方的索引,在移位双线性插值层SBilinear中,具有密集向量点乘运算的G(
·
)被简化为只有移位和加法运算的步骤a3,3D特征提取:基于F
i
和所述基于移位的可变形3D卷积SDfConv3D被表示为:其中,和分别是逐通道3D卷积层DwConv3D的权重和逐点3D卷积层PwConv3D层的权重,O
i
是基于移位的可变形3D卷积SDfConv3D的输出特征。9.一种基于可变形3D卷积网络的视频超分系统,其特征在于,包括关键处理核CPC、辅助处理核APC、全局控制器、分发模块和聚集模块;所述关键处理核CPC以全流水方式执行基于移位的可变形3D卷积SDfConv3D;所述关键处理核CPC包括A类标准3D卷积模块Conv3D

Module A、B类标准3D卷积模块Conv3D

Module B和可变形3D卷积模块DfConv3D

Module;
所述A类标准3D卷积模块Conv3D

Module A和B类标准3D卷积模块Conv3D

Module B用于执行偏移生成;所述可变形3D卷积模块DfConv3D

Module用于执行空间变形和3D特征提取;所述辅助处理核APC用于支持可变形3D卷积网络中除基于移位的可变形3D卷积SDfConv3D以外剩余的卷积操作,所述剩余的卷积操作包括浅层特征提取中只有一个输入通道的深度可分离3D卷积和深度可分离2D卷积;在全局控制器中,通过CPC控制器和APC控制器分别协调关键处理核CPC和辅助处理核APC执行不同计算;直接存储器访问DMA通过生成描述符以管理关键处理核CPC和辅助处理核APC与片外的数据交互;分发模...

【专利技术属性】
技术研发人员:王中风张思雨毛文东
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1