一种基于深度学习的视频去抖方法技术

技术编号:22187559 阅读:47 留言:0更新日期:2019-09-25 04:03
本发明专利技术涉及一种基于深度学习的视频去抖方法,通过设计一个全卷积网络学习一个逐点的映射图,并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明专利技术提出的方法不再基于传统的特征匹配策略和单应矩阵估计,转而进行像素级的映射关系估计,这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题,从而在真实的视频中取得了更好的效果。同时本方法训练的深度网络具有更好的鲁棒性,尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时,具有比传统方法更好的效果。借助GPU并行处理的特性,本发明专利技术取得了比传统方法更快的处理速度,可以实现在线实时的视频去抖。

A Video Dejitter Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的视频去抖方法
本专利技术涉及一种基于深度学习的视频去抖方法,属于计算机视觉和视频去抖

技术介绍
近些年来,越来越多的摄像机被应用于现实生活中的各种场景,其中包括大量的便携可移动的摄像设备,手持设备由于人为抖动导致了摄录的视频质量的大幅度下降,剧烈的抖动造成了人感官上的不适。普通的手持设备摄录视频去抖方法大致分为三类,2D,2.5D和3D方法。2D方法通常使用帧间矩阵序列进行相机运动的建模然后进行平滑【1】。3D方法对于视差的处理效果更好,通过运用运动恢复结构(StructurefromMotion,SfM)进行相机路径的估计【2】,然后利用内容保持的扭曲变换(content-preservingwarping)【3】进行平滑轨迹的重建。但3D方法耗时严重,并且当视差不明显时容易造成算法失效。2.5D方法结合了2D算法和3D算法的优势,Ling【4】使用通过建立时空约束将前景和背景轨迹结合用于抖动的估计并进行运动的平滑。但是其使用单个单应矩阵进行抖动视角到稳定视角的变换限制了其解决3D视频的能力。进行年来,CNN在解决传统计算机视觉问题中取得了较大的成功,但是利用深度网络进行视频去抖的研究较少。仅有的研究是Wang等通过构建一个DeepStab数据集并搭建以Resnet为基础网络的深度网络来实现单应矩阵序列的回归预测【5】。同时其研究团队也提出了基于生成对抗网络进行单应矩阵估计的方法【6】。以上方法在抖动帧到稳定帧映射时通常采用单个单应矩阵或基于固定分块的单应矩阵序列进行透视变换,导致了针对不连续的深度变化存在一定误差,因此对于复杂场景中深度不连续性较强的视频处理效果不佳,本专利技术采用深度学习的方式搭建网络直接进行逐像素的预测,生成和输入视频尺寸一致的映射图,并利用该映射图进行像素级的抖动帧到稳定帧的映射,因此增强了针对抖动视频的去抖能力。本专利技术在视频中存在较大视差时去抖性能提升更加显著。【1】ChenBY,LeeKY,HuangWT,etal.CapturingIntention-basedFull-FrameVideoStabilization[C]//ComputerGraphicsForum.BlackwellPublishingLtd,2008,27(7):1805-1814.【2】HartleyR,ZissermanA.Multipleviewgeometryincomputervision[M].Cambridgeuniversitypress,2003.【3】LiuF,GleicherM,JinH,etal.Content-preservingwarpsfor3Dvideostabilization[C]//ACMTransactionsonGraphics(TOG).ACM,2009,28(3):44.【4】LingQ,ZhaoM.StabilizationofTrafficVideosbasedonbothForegroundandBackgroundFeatureTrajectories[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2018:1-1.【5】WangM,YangGY,LinJK,etal.DeepOnlineVideoStabilizationWithMulti-GridWarpingTransformationLearning[J].IEEETransactionsonImageProcessing,2018,28(5):2283-2292.【6】XuSZ,HuJ,WangM,etal.DeepVideoStabilizationUsingAdversarialNetworks[C]//ComputerGraphicsForum.2018,37(7):267-276.
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于深度学习的交通视频去抖方法,具有更快的处理速度,可以实现在线实时的视频去抖。本专利技术技术解决方案:本专利技术的的基于深度学习的视频去抖方法,具体实现步骤如下:Step1:训练阶段将连续的抖动帧序列作为网络的输入,将稳定的帧作为网络的输出进行有监督训练,生成带权重的深度网络;Step2:测试阶段将连续的抖动帧序列作为网络的输入,生成像素级的映射图;Step3:测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧。进一步的,上述基于深度学习的交通视频去抖方法中,所述Step1中训练阶段有监督训练方式如下:采用如图2所示的孪生网络结构,该孪生网络的两个分支采用相同的全卷积网络结构,并共享参数。两个分支的输出为相邻的抖动帧序列:St={It-ω,…,It,…It+ω,}和St+1={It-ω+1,…,It+1,…It+ω+1,}。It表示t时刻的抖动帧。ω=15表示去抖所考虑的邻域范围。网络的预测为与输入图像尺寸相同(记长和宽分别为W和H)且通道数为2的映射图T={Tx,Ty}。对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标。通过这种逐点的映射,可以生成t时刻的稳定帧由于实际估计的T往往是浮点数,因此在具体操作时采用双线性插值方式进行像素值的计算,即使用{Tx(i,j),Ty(i,j)}相邻的四个整数像素点的值进行双线性插值得到。训练阶段采用的数据集是公开的DeepStab数据集。该数据集包含61对抖动和稳定的视频对。网络的输入图像序列缩放至256×256,像素值归一化至[-1,1]。孪生网络的一个分支的具体结构如图3。采用级联三层的全卷积网络,每一层网络是一个类似于U-net的全卷积网络模型。但是在层间添加了直连结构,可以实现层间的特征信息的有效传输。该结构在图3中用红色的虚线框表示,具体结构如图4(a)图4(b)。在下采样阶段,层间连接的具体结构如图4(a),首先将上一层的特征图直接引入到下一层中,与下一层中对应的特征图相加,然后在通过卷积层、BN层、激活层进行降采样。在上采样阶段,层间连接的具体结构如图4(b),首先将上层的特征引入到下层中,与下一层中对应的特征相加,然后通过卷积层、BN层、激活层进行上采样,最后通过跨层连接进行特征的连接。通过这图4的两个模块可以将上层信息引入到下一层中,使得下一层学习相对于上一层的残差,这样的结构可以在更深的层中学习到更加准确的映射图。损失函数设计如下:其中表示内容损失项,表示形状损失项,表示帧间相似性损失项。下面具体介绍三项Loss。内容损失项:此项Loss用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似,具体定义如下:其中表示的对应像素的二范数之差,表示将两幅图像经过VGG-16后最后一层池化层的输出之差。形状损失项:此项Loss用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真。具体定义如下:其中λ3=λ4=1。项主要用来在训练初始阶段引导Tt的生成并加速训练过程。首先在抖动帧It和对应的真实稳定帧中提取SIFT特征,并进行最近邻匹配得到匹配点对。记为Pi,t和i表示第i组匹配特征点。通过估计本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的视频去抖方法,其特征在于,包括以下步骤:Step1:训练阶段,将连续的抖动帧序列作为深度网络的输入,将稳定的帧作为深度网络的输出进行有监督训练,生成带权重的深度网络;Step2:测试阶段,将连续的抖动帧序列作为带权重的深度网络的输入,生成像素级的映射图,并变换生成稳定帧。

【技术特征摘要】
1.一种基于深度学习的视频去抖方法,其特征在于,包括以下步骤:Step1:训练阶段,将连续的抖动帧序列作为深度网络的输入,将稳定的帧作为深度网络的输出进行有监督训练,生成带权重的深度网络;Step2:测试阶段,将连续的抖动帧序列作为带权重的深度网络的输入,生成像素级的映射图,并变换生成稳定帧。2.根据权利要求1所述的基于深度学习的视频去抖方法,其特征在于:所述Step1中训练阶段有监督训练的方法如下:(1)深度网络采用孪生网络结构,该孪生网络的两个分支采用相同的全卷积网络结构,并共享参数,两个分支的输出为相邻的抖动帧序列:St={It-ω,...,It,...It+ω,}和St+1={It-ω+1,...,It+1,...It+ω+1,},It表示t时刻的抖动帧,ω=15表示去抖所考虑的邻域范围;网络的预测为与输入图像尺寸相同,记长和宽分别为W和H,且通道数为2的映射图T={Tx,Ty},对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标;通过这种逐点的映射,生成t时刻的稳定帧(2)训练阶段采用的数据集是公开的DeepStab数据集,设计的孪生网络的一个分支采用级联三层的全卷积网络,每一层网络是一个先下采样后上采样的全卷积网络模型,但是在层间添加了直连结构,实现层间的特征信息的有效传输,通过跨层的直连结构,将上层信息引入到下一层中,使得下一层学习相对于上一层的残差,这样的结构在更深的层中学习到更加准确的映射图;(3)损失...

【专利技术属性】
技术研发人员:凌强赵敏达李峰
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1