一种基于深度学习的视频去抖方法技术

技术编号：22187559 阅读：47 留言：0更新日期：2019-09-25 04:03

本发明专利技术涉及一种基于深度学习的视频去抖方法，通过设计一个全卷积网络学习一个逐点的映射图，并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明专利技术提出的方法不再基于传统的特征匹配策略和单应矩阵估计，转而进行像素级的映射关系估计，这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题，从而在真实的视频中取得了更好的效果。同时本方法训练的深度网络具有更好的鲁棒性，尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时，具有比传统方法更好的效果。借助GPU并行处理的特性，本发明专利技术取得了比传统方法更快的处理速度，可以实现在线实时的视频去抖。

A Video Dejitter Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的视频去抖方法
本专利技术涉及一种基于深度学习的视频去抖方法，属于计算机视觉和视频去抖

技术介绍
近些年来，越来越多的摄像机被应用于现实生活中的各种场景，其中包括大量的便携可移动的摄像设备，手持设备由于人为抖动导致了摄录的视频质量的大幅度下降，剧烈的抖动造成了人感官上的不适。普通的手持设备摄录视频去抖方法大致分为三类，2D,2.5D和3D方法。2D方法通常使用帧间矩阵序列进行相机运动的建模然后进行平滑【1】。3D方法对于视差的处理效果更好，通过运用运动恢复结构(StructurefromMotion,SfM)进行相机路径的估计【2】，然后利用内容保持的扭曲变换(content-preservingwarping)【3】进行平滑轨迹的重建。但3D方法耗时严重，并且当视差不明显时容易造成算法失效。2.5D方法结合了2D算法和3D算法的优势，Ling【4】使用通过建立时空约束将前景和背景轨迹结合用于抖动的估计并进行运动的平滑。但是其使用单个单应矩阵进行抖动视角到稳定视角的变换限制了其解决3D视频的能力。进行年来，CNN在解决传统计算机视觉问题中取得了较大的成功，但是利用深度网络进行视频去抖的研究较少。仅有的研究是Wang等通过构建一个DeepStab数据集并搭建以Resnet为基础网络的深度网络来实现单应矩阵序列的回归预测【5】。同时其研究团队也提出了基于生成对抗网络进行单应矩阵估计的方法【6】。以上方法在抖动帧到稳定帧映射时通常采用单个单应矩阵或基于固定分块的单应矩阵序列进行透视变换，导致了针对不连续的深度变化存在一定误差，因此对于复...

【技术保护点】
1.一种基于深度学习的视频去抖方法，其特征在于，包括以下步骤：Step1：训练阶段，将连续的抖动帧序列作为深度网络的输入，将稳定的帧作为深度网络的输出进行有监督训练，生成带权重的深度网络；Step2：测试阶段，将连续的抖动帧序列作为带权重的深度网络的输入，生成像素级的映射图，并变换生成稳定帧。

【技术特征摘要】
1.一种基于深度学习的视频去抖方法，其特征在于，包括以下步骤：Step1：训练阶段，将连续的抖动帧序列作为深度网络的输入，将稳定的帧作为深度网络的输出进行有监督训练，生成带权重的深度网络；Step2：测试阶段，将连续的抖动帧序列作为带权重的深度网络的输入，生成像素级的映射图，并变换生成稳定帧。2.根据权利要求1所述的基于深度学习的视频去抖方法，其特征在于：所述Step1中训练阶段有监督训练的方法如下：(1)深度网络采用孪生网络结构，该孪生网络的两个分支采用相同的全卷积网络结构，并共享参数，两个分支的输出为相邻的抖动帧序列：St＝{It-ω，...，It，...It+ω，}和St+1＝{It-ω+1，...，It+1，...It+ω+1，}，It表示t时刻的抖动帧，ω＝15表示去抖所考虑的邻域范围；网络的预测为与输入图像尺寸相同，记长和宽分别为W和H，且通道数为2的映射图T＝{Tx，Ty}，对于T中的每个点，Tx(i，j)表示抖动帧It中应该被映射到稳定帧中(i，j)点的像素的横坐标；Ty(i，j)表示对应像素的纵坐标；通过这种逐点的映射，生成t时刻的稳定帧(2)训练阶段采用的数据集是公开的DeepStab数据集，设计的孪生网络的一个分支采用级联三层的全卷积网络，每一层网络是一个先下采样后上采样的全卷积网络模型，但是在层间添加了直连结构，实现层间的特征信息的有效传输，通过跨层的直连结构，将上层信息引入到下一层中，使得下一层学习相对于上一层的残差，这样的结构在更深的层中学习到更加准确的映射图；(3)损失...

【专利技术属性】
技术研发人员：凌强，赵敏达，李峰，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人