一种视频稳像方法及系统技术方案

技术编号：36802423 阅读：12 留言：0更新日期：2023-03-08 23:53

本发明专利技术公开了一种视频稳像方法及系统，属于计算机视觉领域，基于光流预测网络获得帧间光流场以及对应的置信度图，并利用置信度图反向传播寻找多帧共同的共享区域掩膜，从而得到多帧共享的背景区域；通过将视频稳像问题转化为不动点的优化问题，构建相机位姿回归网络，使其利用帧间共享背景区域的光流场，通过迭代得到最优的相机轨迹参数，平滑后对视频进行稳像；本发明专利技术通过端到端的相机位姿回归网络直接回归相邻帧之间的位姿变换参数，相比于传统的方法需要通特征检测、特征匹配、计算变换矩阵以及分解参数的复杂步骤，能够在保证视觉质量的前提下，以较快的运行速度实现视频稳像。以较快的运行速度实现视频稳像。以较快的运行速度实现视频稳像。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频稳像方法及系统

[0001]本专利技术属于计算机视觉领域，更具体地，涉及一种视频稳像方法及系统。

技术介绍

[0002]随着短视频在社交媒体平台(TikTok、Instagram)的日益普及，视频在我们的日常生活中扮演着越来越重要的角色。然而，由于业余拍摄的因素，随手拍摄的短视频往往是抖动的，长时间观看甚至会导致头晕。虽然可以通过使用专业设备(微云台、稳定器)来缓解这些问题，但基于硬件的解决方案的成本往往很高，使其在现实世界的应用中不切实际。相比之下，基于软件或计算的解决方案，如视频稳定算法已经成为有吸引力的替代方案，它通过消除不良的抖动来改善抖动视频的视觉质量。
[0003]现有的视频稳定方法可以分为两类：基于传统优化的方法和基于神经网络学习的方法。与基于传统优化的方法相比，基于神经网络学习的方法可以实现更高的视觉质量，更具有优越性，但是该方法模型过于复杂，无法实现快速实时的计算，并且由于其训练数据集的稀缺性，该方法的泛化性能仍存在未知性。由此可见，现有技术存在难以兼具运行速度与视觉质量的技术问题。

技术实现思路

[0004]针对现有技术的以上缺陷或改进需求，本专利技术提供了一种视频稳像方法及系统，用以解决现有技术无法以无法在保证视觉质量的前提下以较快的运行速度实现视频稳像的技术问题。
[0005]为了实现上述目的，第一方面，本专利技术提供了一种视频稳像方法，包括以下步骤：
[0006]S1、将待处理的抖动视频按照预设采样间隔进行采样，得到采样视频；对采样视频进行分段...

【技术保护点】

【技术特征摘要】
1.一种视频稳像方法，其特征在于，包括以下步骤：S1、将待处理的抖动视频按照预设采样间隔进行采样，得到采样视频；对所述采样视频进行分段，得到所述采样视频的各子段视频；S2、依次对所述采样视频的各子段视频和所述抖动视频中各采样间隔时间段内的子段视频，分别进行以下操作，得到所述抖动视频中所有的相邻帧的光流场以及对应的掩膜：将各子段视频分别输入到光流预测网络中，得到各子段视频相邻帧以及首尾帧之间的光流场以及对应的置信度图；分别对各置信度图进行二值化，得到对应的掩膜；对各子段视频相邻帧之间的掩膜按照时间轴顺序进行排列，得到掩膜序列，并将首尾帧之间的掩膜作为所述掩膜序列中的最后一项；对所述掩膜序列中的各掩膜从后往前依次执行：基于当前掩膜对应的光流场对其进行重投影，并与其前一个掩膜进行与操作，以对其前一个掩膜进行更新；S3、将所述抖动视频中所有的相邻帧的光流场以及对应的掩膜输入到预训练好的相机位姿回归网络中，得到抖动视频中所有相邻帧之间的相机轨迹参数；对各相机轨迹参数进行平滑操作，并采用平滑操作后的各相机轨迹参数对所述抖动视频进行稳像，得到稳定视频；其中，所述相机位姿回归网络包括：特征提取模块、相机轨迹参数预测模块和光流场更新模块；所述特征提取模块用于将输入的光流场和对应的掩膜按照通道进行拼接，得到融合图，并提取融合图的特征图；所述相机轨迹参数预测模块用于将所述特征图映射为相机轨迹参数，并输出至所述光流场更新模块中；当迭代次数达到预设迭代次数时，将此时的相机轨迹参数作为相机位姿回归网络的输出；所述光流场更新模块用于当当前迭代次数小于预设迭代次数时，基于所述相机轨迹参数对输入的光流场进行更新操作，将当前迭代次数加一，并将更新后的光流场重新输入到所述特征提取模块中。2.根据权利要求1所述的视频稳像方法，其特征在于，所述光流场更新模块采用以下公式基于相机轨迹参数对光流场进行更新：Y
k
＝Y
k
‑
(S
k
·
R
k
·
V+T
k
)其中，Y
k
为第k对相邻帧的光流场；S
k
为第k对相邻帧的光流场所对应的缩放矩阵，具体为R
k
为第k对相邻帧的光流场所对应的旋转矩阵，具体为为第k对相邻帧的光流场所对应的旋转矩阵，具体为为预设图像坐标网格，h为预设图像坐标网格的大小；T
k
为平移矩阵，s
k
为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的尺度因子；θ
k
为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的旋转角度；为当输入抖动视频中第k对相
邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的x轴偏置；为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的y轴偏置。3.根据权利要求1所述的视频稳像方法，其特征在于，所述相机轨迹参数预测模块用于将特征图在通道维度上进行加权求和后，经由全连接层进行映射后，得到相机轨迹参数。4.根据权利要求1所述的视频稳像方法，其特征在于，所述相机位姿回归网络的训练方法包括：将相机位姿回归训练集输入到所述相机位姿回归网络中，通过同时最小化所述相机位姿回归网络输出的相机轨迹参数与其真值之间的差异、以及对预设图像坐标网格分别采用所述相机位姿回归网络输出的相机轨迹参数和相机轨迹参数真值进行图像变换操作后的图像变换矩阵之间的差异，对所述相机位姿回归网络中的参数进行更新；其中，所述相机位姿回归训练集包括：抖动的视频以及对应的稳定视频的相机轨迹参数真值。5.根据权利要求4所述的视频稳像方法，其特征在于，所述相机位姿回归网络的损失函数L
stab
为：L
stab
＝L
gt
+λ
grid
L
driddrid
其中，λ
grid
为网格损失误差权值；λ
θ
为角度参数误差权值；λ
s
为尺度参数误差权值；λ
t
为平移参数权值；θ、s、d
x
和d
y
均为相机轨迹参数；θ为旋转角度；s为尺度因子；d
x
为x轴偏置；d
y
为y轴偏置；为旋转角度真值；为尺度因子真值；为x轴偏置真值；为y轴偏置真值；S为缩放矩阵，具体为R为旋转矩阵，具体为R为旋转矩阵，具体为R为旋转矩阵，具体为为预设图像坐标网格，h为预设图像坐标网格的大小；T为平移矩阵，为预设图像坐标网格，h为预设图像坐标网格的大小；T为平移矩阵，为缩放矩阵真值；为旋转矩阵真值；为平移矩阵真值；∈为预设参数。6.根据权利要求1
‑
5任意一项所述的视频稳像方法，其特征在于，还包括：在所述步骤S3之后执行的步骤S4；所述步骤S4包括：基于所述步骤S3中所得的各相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新，得到所述稳定视频中所有相邻帧的光流场；采用步长为m的滑动窗口对稳定视频进行采样，得到多个长度为N的稳定子段视频；将每一个稳定子段视频中的所有相邻帧的光流场和对应的掩膜输入到光流平滑网络中，得到稳定子段视频中前N
‑
1帧所对应的光流翘曲场；对稳定视频的前m帧图像分别采用对应的光流翘曲场进行重投影，从而对所述稳定视频进一步进行像素级别的稳像；
其中，所述光流平滑网络的结构为跨连的U
...

【专利技术属性】
技术研发人员：赵伟越，曹治国，陆昊，骆贤瑞，彭展，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人