一种基于重建流场的压缩视频质量增强方法技术

技术编号:37375440 阅读:9 留言:0更新日期:2023-04-27 07:18
本发明专利技术公开了一种基于重建流场的压缩视频质量增强方法,属于视频质量增强技术领域。本发明专利技术构建了视频增强网络模型,其循环单元接受当前帧与相邻两帧关键帧作为输入,并结合上一帧的深度特征进行流场融合处理,再经多层级连的残差卷积模块得到当前帧的深度特征;基于核注意力模块在时域残差的引导下对深度特征进行处理,随后使用卷积层重建出质量增强残差,与输入相结合得到最终重建的高质量视频帧,抑制掉了压缩带来的噪声、伪影和模糊等影响视觉效果的因素,重建出高频纹理细节,提高了用户对网络视频等的观看体验。本发明专利技术利用到压缩编码时的先验信息,提高了视频帧间对齐的精度,在帧的空间维度和序列帧的时间维度上都取得了更好的重建效果。取得了更好的重建效果。取得了更好的重建效果。

【技术实现步骤摘要】
一种基于重建流场的压缩视频质量增强方法


[0001]本专利技术属于视频质量增强
,具体涉及一种基于重建流场的压缩视频质量增强方法。

技术介绍

[0002]近年来为进一步降低视频的传输带宽和存储空间占用,H.264/AVC和H.265/HEVC等先进视频压缩标准被广泛用于视频压缩与传输中。为了达到更高的压缩率,这些有损压缩方法往往会造成视频质量的严重下降,引入各种噪声和伪影(如块效应、振铃效应、模糊等)。压缩导致的视频质量降低不仅会极大地影响观看效果,还会对下游的计算机视觉任务(如分类、识别、检测和跟踪等)带来不同程度的影响。因此,在面向网络传输和AI分析等应用环境中,对压缩视频质量的增强技术需求十分迫切。
[0003]受到视频编码器的压缩,视频帧间的质量往往会出现较大的波动。其中,常见的情况是压缩后的视频会周期性地出现高质量的视频帧,高质量帧中包含了更多可用于提升低质量帧重建效果的互补信息,如物体细节纹理等信息,如何利用这些互补信息就变得极为关键。
[0004]为了更好的利用到帧间的互补信息,现有的方法可以大致分为两类,一类是通过在视频帧上通过滑动窗口的方式,利用时域上局部范围内的互补信息辅助进行重建,质量提升效果相比于单帧重建方法更好。但是基于滑动窗口的方法受限于时域上局部感受野,并不能利用到整个序列上更加丰富的信息,而另一类方法采用循环传播结构的方法,借助循环神经网络的优势,可以在不增加太多参数量的情况下,利用到时域上全局的信息,从而实现重建效果的进一步提升。视频压缩的过程中会带来各种先验信息,其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来,其中包含了大量有利于重建任务的信息。在本专利技术的技术方案的实现过程中,专利技术人发现:视频压缩的过程中会带来各种先验信息,其中比较重要的一些包括压缩过程中的量化参数、在帧间编码时用于运动补偿的运动矢量等。这些先验信息可以直接从编码时的码流信息中提取出来,其中包含了大量有利于重建任务的信息。若在压缩视频质量增强处理能对这些先验信息充分利用,应该能提升压缩视频质量增强的增强效果。

技术实现思路

[0005]本专利技术提供了一种基于重建流场的压缩视频质量增强方法,通过充分利用视频压缩时产生的先验信息来进行质量增强重建,以显著提升了重建质量。
[0006]本专利技术采用的技术方案为:
[0007]一种基于重建流场的压缩视频质量增强方法,所述方法包括:
[0008]步骤1,构建模型训练数据集:
[0009]对无压缩视频序列构成的视频数据集中的每个视频进行压缩编解码,到得到每个
视频序列所对应的不同压缩质量视频;在压缩编解码时提取码流中的先验信息,包括编码帧的量化参数QP和运动矢量MV;
[0010]视频数据集中的各视频帧定义为高质量视频帧,压缩编解码后视频帧为低质量视频帧,得到高

低质量视频对;
[0011]对高

低质量视频对进行图像预处理,基于指定长度的连续视频序列的高

低质量视频对,以及对应的先验信息得到一个样本数据,基于一定数量的样本数据得到模型训练数据集;
[0012]步骤2,构建及训练视频增强网络模型;
[0013]所述视频增强网络模型包括循环结构和重建模块;
[0014]循环结构包括多个循环单元,每个循环单元对应着输入的低质量视频帧序列中的一帧,每个循环单元的输入包括:当前视频帧F
t
和其相邻的两帧关键帧{F
p

,F
p+
},以及上一个循环单元中输出的深度特征H
t
‑1;其中,关键帧根据先验信息中的量化参数QP进行选择;每个循环单元用于提取当前视频帧F
t
的深度特征H
t

[0015]所述循环单元包括光流估计模块、流场融合模块和多层级连的残差卷积模块;
[0016]光流估计模块的输入为{F
p

,F
t
,F
p+
},用于预测当前视频帧F
t
的光流场;
[0017]流场融合模块的输入包括当前视频帧F
t
的光流和上一视频帧的编码运动矢量场MV
t
‑1,用于对编码运动矢量场和光流场进行融合,得到重建流场;
[0018]将重建流场与上一个循环单元输出的深度特征H
t
‑1进行对齐操作,再与当前视频帧F
t
按通道维度进行拼接后输入多层级连的残差卷积模块,得到深度特征H
t

[0019]所述重建模块包括核注意力特征重建模块、时域残差计算模块和多层卷积层;
[0020]其中,时域残差计算模块用于计算当前视频帧F
t
与其前后相邻帧之间的时域残差,并将计算结果输入核注意力特征重建模块;
[0021]核注意力特征重建模块的输入包括时域残差计算模块计算得到的时域残差和深度特征H
t
,用于提取卷积核注意力图,并基于卷积核注意力图对特征H
t
进行卷积运算,得到当前视频帧F
t
的深度特征
[0022]通过多层卷积层对深度特征进行图像通道数恢复,得到当前视频帧F
t
的残差图像;
[0023]将当前视频帧F
t
与其残差图像求和得到当前视频帧F
t
的视频质量增强结果即重建的高质量视频帧;
[0024]基于预置的损失函数对视频增强网络模型进行网络参数训练,当达到预置的训练结束条件时(比如训练次数达到上限、训练精度达到指定条件等),得到用于目标视频的视频增强网络模型。
[0025]进一步的,所述流场融合模块包括流场权重计算单元和流场重建单元;
[0026]其中,权重计算单元依次包括:3
×
3卷积核的卷积层,激活函数(优选LeakyReLU)、3
×
3卷积核的卷积层和Softmax函数;
[0027]权重计算单元的输入为当前视频帧F
t
,Softmax函数用于输出编码运动矢量场的每个像素的运动矢量权重ω,从而得到光流场中每个像素的运动矢量的权重1ω,基于加权融合方式对输入的编码运动矢量场和光流场进行加权融合,得到重建流场。
[0028]进一步的,所述核注意力特征重建模块提取卷积核注意力图具体为:首先对时域残差和深度特征H
t
进行通道拼接,再输入多层级连的卷积块,该多层级连的卷积块的输出再与时域残差和深度特征H
t
的通道拼接结果相加得到卷积核注意力图;其中,卷积块包括依次连接的卷积层和激活函数。
[0029]进一步的,视频增强网络模型在网络参数训练时采用的损失函数为:
[0030]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重建流场的压缩视频质量增强方法,其特征在于,所述方法包括:步骤1,构建模型训练数据集:对无压缩视频序列构成的视频数据集中的每个视频进行压缩编解码,到得到每个视频序列所对应的不同压缩质量视频;在压缩编解码时提取码流中的先验信息,包括编码帧的量化参数QP和运动矢量MV;视频数据集中的各视频帧定义为高质量视频帧,压缩编解码后视频帧为低质量视频帧,得到高

低质量视频对;对高

低质量视频对进行图像预处理,基于指定长度的连续视频序列的高

低质量视频对,以及对应的先验信息得到一个样本数据,基于一定数量的样本数据得到模型训练数据集;步骤2,构建及训练视频增强网络模型;所述视频增强网络模型包括循环结构和重建模块;循环结构包括多个循环单元,每个循环单元对应着输入的低质量视频帧序列中的一帧,每个循环单元的输入包括:当前视频帧F
t
和其相邻的两帧关键帧{F
p

,F
p+
},以及上一个循环单元中输出的深度特征H
t
‑1;其中,关键帧根据先验信息中的量化参数QP进行选择;每个循环单元用于提取当前视频帧F
t
的深度特征H
t
;所述循环单元包括光流估计模块、流场融合模块和多层级连的残差卷积模块;光流估计模块的输入为{F
p

,F
t
,F
p+
},用于预测当前视频帧F
t
的光流场;流场融合模块的输入包括当前视频帧F
t
的光流和上一视频帧的编码运动矢量场MV
t
‑1,用于对编码运动矢量场和光流场进行融合,得到重建流场;将重建流场与上一个循环单元输出的深度特征H
t
‑1进行对齐操作,再与当前视频帧F
t
按通道维度进行拼接后输入多层级连的残差卷积模块,得到深度特征H
t
;所述重建模块包括核注意力特征重建模块、时域残差计算模块和多层卷积层;其中,时域残差计算模块用于计算当前视频帧F
t
与其前后相邻帧之间的时域残差,并将计算结果输入核注意力特征重建模块;核注意力特征重建模块的输入包括时域残差计算模块计算得到的时域残差和...

【专利技术属性】
技术研发人员:王正宁刘旭航刘帅成徐宇航罗兴隆朱旭匡育衡
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1