当前位置: 首页 > 专利查询>上海大学专利>正文

一种实现视频错误隐藏的方法、系统、终端及介质技术方案

技术编号:37668843 阅读:22 留言:0更新日期:2023-05-26 04:29
本发明专利技术提供一种实现视频错误隐藏的方法、系统、终端及介质,其中将原始视频经编解码压缩后形成测试集和训练集;对测试集和训练集进行抽帧处理,在进行掩码块操作,得到网络训练集;构建网络模型,对网络模型进行训练,得到视频错误隐藏模型;将视频帧测试集输入视频错误隐藏模型,输出重建帧;模型的生成器采用Video Swin Transformer网络对输入的视频帧测试集进行视频帧多层特征提取,之后将不同层次的特征进行融合用于视频丢失或受损区域的重建,输出重建帧。本发明专利技术解决了不能对VVC标准压缩视频的丢失或受损区域进行有效恢复的问题,同时克服了传统卷积神经网络不能兼顾并行执行和长程时间依赖性建模能力的弊端。长程时间依赖性建模能力的弊端。长程时间依赖性建模能力的弊端。

【技术实现步骤摘要】
T,WU Ping

hao,KUO C J.Low

Complexity Video Error Concealment for Mobile Applications Using OBMA[J].IEEE Trans on Consumer Electronics,2008,54(2):753

761.提出了利用线性平移模型来隐藏损失的宏块,在匹配过程中使用一层外边界中所有相邻的宏块,并选取失真最小的宏块作为最佳候选宏块。Q.Peng,T.Yang,C.Zhu,Block

based temporal error concealment for video packet using motion vector extrapolation.IEEE International Conference on Communications,Circuits and Systems and West Sino Expositions,10

14,2002.提出将前一帧块的运动矢量投影到当前帧块中,并选择其指向块与当前块具有最大重叠面积的运动矢量作为该块的恢复运动矢量。该方法较好地保持了物体的运动,为了提升隐藏效果,后来的一些改进算法改变了参考帧的选取范围与重叠像素的计算方式,也有一些算法将其扩展到像素级。但是,对于运动物体附近的静态区域,运动矢量外推法有时达不到较好的恢复效果。
[0006]随着深度学习的不断发展,不同类型的网络模型被接续开发提出,并广泛应用于各个领域,目前也被证明在计算机视觉方向取得了巨大的成功。Sankisa A,Punjabi A,Katsaggelos A K.Video Error Concealment Using Deep Neural Networks[C]//2018 25th IEEE International Conference on Image Processing(ICIP).IEEE,2018.提出了一种结合卷积长短期记忆层(Convolution Long Short

Term Memory,Conv LSTM)和简单的卷积层来预测丢失区域光流的网络,将预测的光流与受损帧相结合来预测该帧的错误/丢失的部分,从而实现受损帧的错误隐藏。Xiang C,Xu J,Yan C,et al.Generative Adversarial Networks Based Error Concealment for Low Resolution Video[C]//ICASSP 2019

2019IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019.提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)的错误隐藏方法,生成器网络是一个类似于U

Net的网络架构,实现特征提取并输出一个修复后图像;同时采用全局鉴别器和局部鉴别器,双辨别器的结构大大提高了图像修复的速度和质量,可以使得隐藏后的图像在全局范围和局部范围都具有良好的视觉体验。又如,公开号为CN113256521A的中国专利技术专利,公开一种数据缺失的错误隐藏方法及装置,其中基于生成对抗网络(GAN)的网络模型PV

GAN,并将其用于全景视频的错误隐藏技术。PV

GAN的生成器网络是一个类似于U

Net的网络。
[0007]上述用于视频错误隐藏的网络模型大多都是使用传统卷积神经网络来获取视频的时空域信息,通过相邻几帧来进行特征提取和预测,没有兼顾并行执行和长程时间依赖性建模的能力,使得模型的特征提取能力受限。

技术实现思路

[0008]针对现有技术中的缺陷,本专利技术的目的是提供一种实现视频错误隐藏的方法、系统、终端及介质
[0009]根据本专利技术的一个方面,提供一种实现视频错误隐藏的方法,包括:
[0010]将原始视频经编解码压缩后形成测试集和训练集,所述测试集为有损视频,所述训练集为无损视频;
[0011]对所述测试集和所述训练集进行抽帧处理,得到视频帧测试集和视频帧训练集,将掩码块加在所述视频帧训练集上,得到网络训练集;
[0012]构建网络模型,用所述网络训练集对所述网络模型进行训练,得到视频错误隐藏模型;
[0013]将所述视频帧测试集输入所述视频错误隐藏模型,输出重建帧,完成视频错误隐藏;
[0014]其中,所述视频错误隐藏模型以生成对抗网络为基本框架,包括生成器和鉴别器,所述生成器采用Video Swin Transformer网络(视频Swin Transformer网络)对输入的所述视频帧测试集进行视频帧多层特征提取,之后将不同层次的特征进行融合用于视频丢失或受损区域的重建,输出重建帧;所述鉴别器基于所述生成器输出的重建帧计算对抗性损失,来约束所述视频错误隐藏模型进行训练以优化模型性能。
[0015]根据本专利技术的第二方面,提供一种实现视频错误隐藏的系统,包括:
[0016]数据集预处理模块:将原始视频经编解码压缩后形成测试集和训练集,所述测试集为有损视频,所述训练集为无损视频;对所述测试集和所述训练集进行抽帧处理,得到视频帧测试集和视频帧训练集,将掩码块加在所述视频帧训练集上,得到网络训练集;
[0017]网络模型构建和训练模块:构建视频错误隐藏模型,用所述数据集预处理模块得到的网络训练集对所述视频错误隐藏模型进行训练,得到训练后的视频错误隐藏模型;
[0018]重建模块:将所述数据集预处理模块得到的视频帧测试集输入训练后的所述视频错误隐藏模型,输出重建帧,完成视频错误隐藏;
[0019]其中,所述网络模型构建和训练模块中,视频错误隐藏模型以生成对抗网络为基本框架,包括生成器和鉴别器,所述生成器采用Video Swin Transformer网络对输入的所述视频帧测试集进行视频帧多层特征提取,之后将不同层次的特征进行融合用于视频丢失或受损区域的重建,输出重建帧;所述鉴别器基于所述生成器输出的重建帧计算对抗性损失,来约束所述视频错误隐藏模型进行训练以优化模型性能。
[0020]根据本专利技术的第三方面,提供一种终端,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行所述的实现视频错误隐藏的方法。
[0021]根据本专利技术的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行所述的实现视频错误隐藏的方法。
[0022]与现有技术相比,本专利技术实施例具有如下至少一种有益效果:
[0023]本专利技术实施例提供的实现视频错误隐藏的方法及系统,打破了传统方法中特征提取的局限性以及解决了不能对最新一代视频编码标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现视频错误隐藏的方法,其特征在于,包括:将原始视频经编解码压缩后形成测试集和训练集,所述测试集为有损视频,所述训练集为无损视频;对所述测试集和所述训练集进行抽帧处理,得到视频帧测试集和视频帧训练集,将掩码块加在所述视频帧训练集上,得到网络训练集;构建网络模型,用所述网络训练集对所述网络模型进行训练,得到视频错误隐藏模型;将所述视频帧测试集输入所述视频错误隐藏模型,输出重建帧,完成视频错误隐藏;其中,所述视频错误隐藏模型以生成对抗网络为基本框架,包括生成器和鉴别器,所述生成器采用Video Swin Transformer网络对输入的所述视频帧测试集进行视频帧多层特征提取,之后将不同层次的特征进行融合用于视频丢失或受损区域的重建,输出重建帧;所述鉴别器基于所述生成器输出的重建帧计算对抗性损失,来约束所述视频错误隐藏模型进行训练以优化模型性能。2.根据权利要求1所述的实现视频错误隐藏的方法,其特征在于,所述生成器,被设置为:首先使用Video Swin Transformer网络组成的编码器对输入的所述视频帧测试集的受损视频帧进行多层特征提取并保存特征输出;然后通过解码器来进行帧重建,并以跳链接的方式将每个解码层的输出与相同尺寸的编码器输出特征相结合作为下一个解码层的输入,从而充分利用不同层次的特征信息来对视频帧的丢失或受损区域进行恢复。3.根据权利要求2所述的实现视频错误隐藏的方法,其特征在于,所述编码器编码层,包含n个阶段,实现n个层次的特征提取与下采样,并保存每一层的特征输出;n为大于等于2的自然数;所述解码层由卷积层与上采样模块构成,实现视频帧的像素重建。4.根据权利要求3所述的实现视频错误隐藏的方法,其特征在于,所述编码层,由四个阶段构成,每个阶段分别包含2、2、6、2个Video Swin Transformer Block,前三个阶段还包含一个Patch Merging结构。5.根据权利要求3所述的实现视频错误隐藏的方法,其特征在于,所述解码器由四个网络层组成,其中:前三层由二维卷积和双线性上采样模块构成,这三层的输出与对应尺寸的编码层输出在通道维度上进行拼接作为下一个网络层的输入;最后一...

【专利技术属性】
技术研发人员:马然张冰曹宇安平
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1