一种基于可变形3D卷积网络的视频超分方法和系统技术方案

技术编号：37957861 阅读：8 留言：0更新日期：2023-06-30 09:31

本发明专利技术提供了一种基于可变形3D卷积网络的视频超分方法和系统，所述方法包括：将低分辨率LR视频参考帧及其相邻的支持帧输入可变形3D卷积网络，经过可变形3D卷积网络的处理得到一个高分辨率HR视频帧；可变形3D卷积网络的处理包括：浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。本发明专利技术提出了一种基于先验框的轻量化可变形网络用于视频超分任务，并结合其数据依赖关系和计算特点设计了一种高效的硬件加速器，相比现有的加速方案可以实现更高的视频重建质量，在吞吐率和能效方面提升2.75倍和1.63倍。效方面提升2.75倍和1.63倍。效方面提升2.75倍和1.63倍。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可变形3D卷积网络的视频超分方法和系统

[0001]本专利技术涉及一种基于可变形3D卷积网络的视频超分方法和系统。

技术介绍

[0002]作为计算机视觉领域的底层处理任务，视频超分辨率(Video Super
‑
Resolution,VSR)的基本思想是通过收集相邻帧的时间和空间信息，为低分辨率(Low
‑
Resolution,LR)视频图像重建高分辨率(High
‑
Resolution,HR)视频图像，通过恢复视频图像中的高频纹理细节，使模糊的LR视频流更加清晰并能够支持更加高清的显示设备。
[0003]近年来卷积神经网络(Convolutional Neural Network,CNN)相比于传统的插值方法在VSR领域取得巨大突破，然而较高的计算资源需求使先进的CNN模型通常需要借助高性能的图形处理单元集群来执行，难以在资源有限的移动设备上部署，因此，实现高速度、低功耗的VSR加速器对于提升重建质量、改善用户体验非常重要。目前常用的方法是逐帧执行单一图像超分辨率(Single Image Super
‑
Resolution,SISR),虽然算法的复杂度较低，但往往忽视了视频的帧间连续性，致使VSR的性能下降。
[0004]作为CNN模型的新型变体，可变形卷积神经网络(Deformable Convolutional Network，DCN)可以通过增强模型的多帧对齐能力，有效地补偿帧间连续性并提高VSR的性能。究其原因...

【技术保护点】

【技术特征摘要】
1.一种基于可变形3D卷积网络的视频超分方法，其特征在于，包括：将低分辨率LR视频参考帧及其Niz
‑
1个相邻的支持帧输入可变形3D卷积网络，经过可变形3D卷积网络的处理，得到一个高分辨率HR视频帧其中，Nix,Niy,Nif分别为低分辨率LR视频帧图像的高度、宽度和通道数，s为上采样因子，表示低分辨率LR视频参考帧第Niz
‑
1个相邻的支持帧，表示sNix
×
sNiy
×
Nif维的实数空间；所述可变形3D卷积网络的处理包括如下阶段：浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。2.根据权利要求1所述的方法，其特征在于，所述浅层特征提取包括：使用深度可分离的3D卷积层提取时空信息，所述深度可分离的3D卷积层包括逐通道3D卷积层DwConv3D和逐点3D卷积层PwConv3D。3.根据权利要求2所述的方法，其特征在于，所述隐式特征对齐包括：输入Niz帧特征，根据块解耦的计算策略TDS实施隐式特征对齐，具体方法是对从浅层特征提取阶段获得的中间特征序列进行划分，从而保证隐式特征对齐阶段的所有层都以块的粒度而非整个中间特征序列执行；隐式特征对齐阶段包括两个以上的可变形3D卷积残差块ResD3D，每个可变形3D卷积残差块ResD3D块是基于移位的可变形3D卷积SDfConv3D堆叠的，用于同时执行空间变形和时间对齐，使用残差学习策略提高模型训练过程的收敛性；输入和输出块的尺寸相同，并且输入特征和输出特征数量一致；输入特征和输出特征的数量指的是输入块的特征通道数和输出块的特征通道数；通过隐式特征对齐最终得到Niz帧对齐特征。4.根据权利要求3所述的方法，其特征在于，所述基于块解耦的计算策略TDS包括：将Niz帧特征在空间维度上分解为两个以上重叠块，隐式特征对齐阶段是以块为单位执行，每次循环仅处理一个块。5.根据权利要求4所述的方法，其特征在于，所述空时特征融合包括：将获得的Niz帧对齐特征通过时序平均池化函数TAP在时间维度上进一步聚合，然后由深度可分离的2D卷积层搭建的ResC2D模块负责捕获空间特征。6.根据权利要求5所述的方法，其特征在于，所述高分辨率HR视频帧重建包括：将空间特征传播到上采样模块以重构视频超分辨率VSR结果，引入一种基于先验框的残差学习策略代替传统残差连接中的逐像素插值：在基于先验框的残差连接路径上将低分辨率LR视频参考帧复制s2次并连接成一个序列I
z
′
就会在上采样模块中变成最终超分辨率SR视频帧的先验框图，所述先验框图包含低分辨率LR视频参考帧中的低频分量。7.根据权利要求6所述的方法，其特征在于，所述基于移位的可变形3D卷积SDfConv3D包括移位逐点3D卷积层SPwConv3D、移位双线性插值层SBilinear和两个以上普通可分离3D卷积层。8.根据权利要求7所述的方法，其特征在于，所述基于移位的可变形3D卷积SDfConv3D的处理过程包括：步骤a1，偏移生成：所述基于移位的可变形3D卷积SDfConv3D以块粒度执行，对于第i个
输入块得到对应预测的偏移量对于像素偏移生成过程H
Ψ
表示为：其中，是像素在空间维度的坐标，是像素在时间维度的坐标，是像素在空间维度上的第n对坐标偏移量，表示一个尺寸为Nkx
×
Nky
×
Nkz＝3
×3×
3的三维采样网格，而且Nkx、Nky分别表示三维采样网格在空间维度上的宽和高，Nkz是三维采样网格在时间维度上的帧数，偏移量的通道数量为Tix
×
Tiy表示每一个输入块的空间尺寸，Tix表示输入块的宽，Tiy表示输入块的高；偏移生成过程H
Ψ
包括一系列级联的普通可分离3D卷积层和一个移位逐点3D卷积层SPwConv3D；对于移位逐点3D卷积层SPwConv3D，其权重表示为2的幂次方：其中s和p分别表示符号翻转和移位，Nof表示输出特征图的数量，sgn表示符号函数；移位逐点3D卷积层SPwConv3D的完整计算过程用移位和加法表示如下：其中，和分别表示第m个输入特征图和第j个输出特征图，*表示卷积运算；表示SPwConv3D的第m个输入通道、第j个输出通道的权重；s
j,m
表示得到的第m个输入通道、第j个输出通道的符号值；步骤a2，空间变形：通过公式(1)得到变形后的感受野，变形后的感受野包括如下部分：当前像素的坐标由三维采样网格得到个以当前像素为中心的常规坐标偏移量为中心的常规坐标偏移量表示当前像素在空间维度上预测的动态偏移量，目的是用于实现SDfConv3D的空间变形和时间对齐；变形后的感受野中每个元素的坐标表示为：其中，是当前像素在空间维度上的第n对坐标值；是当前像素在时间维度上的第n个坐标值；
表示三维采样网格中元素的坐标，表示三维采样网格的第n个网格的空间维度坐标值；表示三维采样网格的第n个网格的时间维度坐标值；中每对坐标就对应中每对坐标就对应和分别是的小数部分和的小数部分；引入双线性插值函数G(
·
)，G(
·
)表示为：其中，T表示矩阵转置；将变形后坐标的整数部分和小数部分分别转化为每个特征图的插值系数向量U和采样像素向量V：其中，和都是共享参数；为了减少公式(5)中的乘法运算数量，U的每个元素u
d
利用下式表示为L个2的幂次方的系数：其中表示码本集，表示第l个码本集，每个码本包含M个候选元素，Ω
d
表示为u
d
搜索的2的幂次方的索引，在移位双线性插值层SBilinear中，具有密集向量点乘运算的G(
·
)被简化为只有移位和加法运算的步骤a3，3D特征提取：基于F
i
和所述基于移位的可变形3D卷积SDfConv3D被表示为：其中，和分别是逐通道3D卷积层DwConv3D的权重和逐点3D卷积层PwConv3D层的权重，O
i
是基于移位的可变形3D卷积SDfConv3D的输出特征。9.一种基于可变形3D卷积网络的视频超分系统，其特征在于，包括关键处理核CPC、辅助处理核APC、全局控制器、分发模块和聚集模块；所述关键处理核CPC以全流水方式执行基于移位的可变形3D卷积SDfConv3D；所述关键处理核CPC包括A类标准3D卷积模块Conv3D
‑
Module A、B类标准3D卷积模块Conv3D
‑
Module B和可变形3D卷积模块DfConv3D
‑
Module；
所述A类标准3D卷积模块Conv3D
‑
Module A和B类标准3D卷积模块Conv3D
‑
Module B用于执行偏移生成；所述可变形3D卷积模块DfConv3D
‑
Module用于执行空间变形和3D特征提取；所述辅助处理核APC用于支持可变形3D卷积网络中除基于移位的可变形3D卷积SDfConv3D以外剩余的卷积操作，所述剩余的卷积操作包括浅层特征提取中只有一个输入通道的深度可分离3D卷积和深度可分离2D卷积；在全局控制器中，通过CPC控制器和APC控制器分别协调关键处理核CPC和辅助处理核APC执行不同计算；直接存储器访问DMA通过生成描述符以管理关键处理核CPC和辅助处理核APC与片外的数据交互；分发模...

【专利技术属性】
技术研发人员：王中风，张思雨，毛文东，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人