一种基于视频数据的轻量化超分辨率方法技术

技术编号:37162365 阅读:15 留言:0更新日期:2023-04-06 22:28
本发明专利技术提供了一种基于视频数据的轻量化超分辨率方法。设计了轻量化超分辨率网络,包括特征提取、特征对齐、特征重构等模块,分别利用基本的卷积操作和通道分离、通道打乱、自校正卷积等处理,能够在保证模型参数量不会过大的同时,较好地利用视频帧通道的各级特征并进行差异化地学习,得到较好的全景视频超分辨率结果。结果。结果。

【技术实现步骤摘要】
一种基于视频数据的轻量化超分辨率方法


[0001]本专利技术属计算机视觉领域,具体涉及一种基于视频数据的轻量化超分辨率方法。

技术介绍

[0002]超分辨率(SR)是一项底层的计算机视觉任务。它所要解决的问题是如何将一幅低分辨率(LR)图像映射到高分辨率(HR),同时增强其中的细节,以期达到赏心悦目的目的。SR主要针对两种对象进行处理,一类是图像,另一类是视频。基于图像的超分辨率技术所要实现的目标是在提升LR图像的分辨率时增强其中的细节,而基于视频的SR技术在达到图像SR要求的同时还要保证视频帧与帧之间的连续一致性,否则会使得合成的视频播放不连贯,影响观看体验。
[0003]现有的超分辨算法可以分为两大类:一类是传统的方法,另一类则是基于深度学习的方法。传统的超分辨算法包括双线性插值、双立方插值、稀疏表示等等。基于深度学习的方法,由于卷积神经网络(CNN)的强特征学习能力,使其在性能上远远优于传统的超分辨方法,很多基于深度学习的图像、视频超分辨算法被提出,分别从不同的问题角度尝试提升超分辨效果,包括原始数据本身、网络结构和损失函数等等。最早将深度学习应用于超分辨领域的是SRCNN(卷积神经网络超分辨率,Deep convolution Network for image Super

Resolution)算法,其由三个卷积层组成,通过特征提取、非线性映射、重构达到恢复LR图像的目的。之后,针对已有方法的不足,从网络的输入形式、网络结构、损失函数、信息的利用程度等角度,许多优秀的图像SR算法相继被提出,包括FSRCNN(Accelerating the Super

Resoluton Convolutional Neural Network)、VDSR(Very Deep Convolutional Network)、ESPCN(Efficient Sub

Pixel Convolutional Neural Network)、EDSR(Enhanced Deep Residual Networks for Single Image Super

Resolution)、RDN(残差稠密网络,Residual Dense Network)、RCAN(Very Deep residual channel attention network)、DRN(深度残差网络,Deep Residual Network)等。
[0004]视频超分辨算法包括早期的Deep

DE和VSRnet(Video segment REtrival Network)方法,其中VSRnet方法由SRCNN改进而来,同样使用三个卷积层,输入由原来的单幅图像变为多帧连续的图像。之后,越来越多优秀的算法被提出,包括VESPCN(Video Efficient Sub

Pixel Convolutional Neural Network)、DUF(Dynamic Upsampling Filters Video Super

Resolution Network)、DRVSR(Dense Memory Network for Video Super

Resolution)、TDAN(Temporally

Deformable Alignment Network)、RBPN(Recurrent Back

Projection Network for Video Super

Resolution)、EDVR(Video Restoration with Enhanced Deformable ConvolutionalNetworks)等。为更加有效的利用视频帧间的信息,尽可能的捕获近邻帧中对目标帧超分辨有用的信息,例如高频细节,又提出了3D卷积、Non

local网络、RCNN(候选区卷积神经网络,Region

CNN)、可变形卷积以及基于光流的运动估计和运动补偿等方法。其中,基于光流的方法由于其应用限制导致所估计的光流运动信息不准确,从而影响后续的超分辨过程,最终导致性能受限;基于可变形卷
积的方法由于能获得更准确的帧间信息,能够获得更加优异的性能,典型方法包括EDVR、VESRnet(Video Enhancement and Super

Resolution net)、TDAN等。
[0005]随着虚拟现实技术和第五代移动通信技术的发展,对于沉浸式技术来说,360全景视频变得越来越重要。全景视频由360摄像头捕捉,并以二维平面格式存储,如等矩形投影(ERP)和立方图投影,在回放过程中,全景视频可以投影到普通平面显示器和球形显示器上。近年来,全景视频已被广泛应用于娱乐、教育、医疗保健、通信、广告等多个领域。但是这种格式的视频面临着巨大的挑战,因为它需要非常高的分辨率以覆盖整个360空间,以确保捕获的视频在视觉上是令人满意的。给定全景视频的一部分,其被称之为视点,可以被一个VR显示器所利用,但是目前视点的分辨率相对较低,视觉效果大大降低。因此,在基于球形视频的VR系统中,高分辨率视频对于保证高质量的观看体验至关重要。然而,目前无论是用户系统还是网络带宽都难以实时处理和传输这样大规模的视频,解决上述问题的一种有效方法是先捕捉低分辨率的视频,然后超分辨为高分辨率的视频。
[0006]目前,已公开的全景视频超分辨算法较少,典型的有SMFN(Single Frame and Multi

Frame Joint Network)算法,即基于单帧和多帧联合的全景视频超分辨率算法,其由单帧超分辨率网络、多帧超分辨率网络、对偶网络和融合模块组成,以结合单帧图像超分和多帧图像超分各自的优势,其中单帧图像超分能够有效恢复空间信息,多帧图像超分能够有效捕获帧间的时域信息,对偶网络则负责在训练过程中用于约束解空间。网络的目标是在给定的2N+1个连续低分辨率视频帧的条件下(N表示与目标帧左(右)相邻的帧个数,目标帧加上左右相邻的2N个帧即为2N+1个连续帧),输出超分倍数为s的目标帧的高分辨率结果。特征提取模块首先将目标帧及其相邻帧作为输入,生成相应的特征图,然后,通过对齐模块将相邻帧的特征图与目标帧的特征图进行对齐,将对齐后的特征输入重构模块,得到高分辨率图像。单帧超分辨率网络直接对目标帧进行单帧超分辨率处理。为了进一步提高恢复视频的质量,SMFN算法还设计了一个融合模块对重构模块和单帧超分辨率网络的结果进行后处理。这样的设计虽然保证了模型的性能,但是也导致模型的结构比较复杂,网络参数量过大,加之全景视频的超分辨要生成的视频帧的分辨率都比较高,对GPU服务器显存以及推理性能需求太高,很难投入到实际应用中。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术提供一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频数据的轻量化超分辨率方法,其特征在于步骤如下:S1、将低分辨率的360
°
全景视频拆成连续的视频帧,以滑动窗口的方式将连续视频帧输入到网络,窗口大小设置成3帧,步长为1帧,在处理第一帧和最后一帧时,分别将原视频帧序列的第二帧和倒数第二帧添加到序列的第一帧和最后一帧,窗口中心对应的视频帧为目标帧,另外两帧视频帧为近邻帧;S2、输入视频帧经特征提取模块进行特征提取,所述的特征提取模块由若干两层卷积构成的残差块residualblock组成;S3、提取到的特征经特征对齐模块提取近邻帧和目标帧的帧间信息,并利用帧间信息将近邻帧的特征图和目标帧特征图对齐后输出,具体过程包括:S301、、将步骤S2提取得到的近邻帧特征和目标帧特征按照通道维度进行拼接,再通过卷积层进行特征提取;S302、将步骤S301得到的特征信息输入自校正卷积网络,首先,将输入特征信息的通道一分为二,一路分支经平均池化层、卷积层、上采样操作后得到的特征与输入特征进行相加融合,融合后的特征经过Sigmoid层,与输入特征经过卷积层后的输出进行相乘融合,融合后的特征再经卷积层,得到这一路分支的输...

【专利技术属性】
技术研发人员:乔海洋白洁杨奔奔刘红英尚凡华赵鹏
申请(专利权)人:电信科学技术第十研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1