一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法技术

技术编号:31312525 阅读:22 留言:0更新日期:2021-12-12 21:47
本发明专利技术公开了一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法,将视频帧依次通过两种计算不同时间长度的网络来实现质量的预测。短时时空融合网络用于提取并融合当前帧的时空特征,得到当前帧中时间特征作用于空间特征后的结果。长时序列融合网络用于在先验知识的指导下对一段时间内各帧之间相互作用的结果进行建模并预测视频的质量分数。本方法以视频帧作为输入,通过在帧级别上设计网络从而融合时间和空间特征,在序列级别上考虑帧间关系从而进一步细化当前帧特征的方式,利用深度学习预测一段视频中各帧的质量,最终完成对视频整体质量评价的任务。本发明专利技术由于细化且丰富了视频帧的特征,因此在模型性能上有了显著提高。模型性能上有了显著提高。模型性能上有了显著提高。

【技术实现步骤摘要】
一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法


[0001]本专利技术涉及一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法,属于数字视频处理


技术介绍

[0002]视频作为视觉信息的一种复杂来源,蕴含了大量的有价值信息。视频质量的好坏直接影响到人们的主观感受和信息量获取,并且可以指导相关设备研发、系统监测、质量恢复等其他视频任务,视频质量评价(Video Quality Assessment,VQA)的研究也在近几年受到广泛的重视。
[0003]视频质量评价方法可以分为主观评价方法和客观评价方法。主观评价是由观察者对视频质量进行主观评分,虽然评分结果符合人的主观感受但同时具有工作量大、耗时长等缺点;客观评价方法是由计算机根据一定算法计算得到视频的质量指标,根据评价时是否需要参考视频又可以分为全参考(Full Reference,FR)、半参考(部分参考)(Reduced Reference,RR)和无参考(No Reference,NR)这三类评价方法:
[0004](1)全参考视频质量评价方法。FR算法是指在给定理想视频作为参考视频的标准下,比较待评价视频与参考视频之间的差异,分析待评价视频的失真程度,从而得到待评价视频的质量评估结果。常见的FR方法的有:基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。FR算法是目前为止在客观视频质量评价中最可靠的方法。
[0005](2)半参考视频质量评价方法。RR算法是指提取参考视频的部分特征信息作为参考,对待评价视频进行比较分析,从而得到视频的质量评估结果。常见的RR算法主要为:基于原始视频特征的方法和基于Wavelet域统计模型的方法。
[0006](3)无参考视频质量评价方法。NR算法是指在没有理想视频的情况下,对待评价视频进行质量评估的方法。常用的NR算法主要为:基于自然场景统计的方法、基于深度学习的方法。
[0007]针对视频在获取、处理、传输和记录的过程中,由于成像系统、处理方法、传输介质和记录设备等不完善,加之物体运动、噪声干扰等原因所造成的失真和降质,视频在正式使用之前往往需要进行质量衡量。在不使用人力资源和参考视频的情况下直接由失真视频得到其质量的方法称为客观无参考视频质量评价。
[0008]中国专利CN201811071199.1公开了一种基于层级特征融合网络的无参考图像质量评价方法,主要解决现有技术精度低、速度慢的问题。其实现方案是:从MSCOCO数据集挑选参考图像并通过添加噪声建立污染图像数据库;对训练集图像和测试集图像同时进行去均值与裁剪;根据人类视觉系统从局部特征到全局语义的分层次处理机制,设计一个进行端到端联合优化的层级特征融合网络模型;利用训练集和测试集对层级特征融合网络模型进行训练;对待评测图像进行去均值与裁剪处理,将处理后的图像输入训练好的层级特征
融合网络模型,获得图像质量预测分值;由此提高无参考质量评价的精度与速度,可用于图像筛选、压缩、视频质量监控。
[0009]中国专利CN201810239888.2公开了一种基于卷积神经网络的全参考虚拟现实视频质量评价方法,包括:视频预处理:利用VR视频的左视图视频与右视图视频得到VR差分视频,从差分视频中均匀抽帧,给每一帧不重叠的切块,每一帧相同位置的视频块构成一个VR视频补丁;建立两个配置一样的卷积神经网络模型;训练卷积神经网络模型:利用梯度下降法,以VR视频补丁为输入,每个补丁配上原视频质量分数作为标签,分批次将其输入网络,经过多次迭代后网络各层权重得到充分优化,最终得到可用于提取虚拟现实视频特征的卷积神经网络模型;利用卷积神经网络提取特征;利用支持向量机得到局部分数,采用分数融合策略得到最终分数,提高客观评价方法准确率。
[0010]本专利技术拟采用短时时空融合网络和长时序列融合网络对视频质量进行客观无参考质量评价。

技术实现思路

[0011]针对现有视频质量评价中无参考视频质量评价性能差的问题,本专利技术提出了一种客观无参考质量评价方法,本专利技术将视频划分为视频帧,每个视频帧通过短时时空融合网络得到各个视频帧的64维特征向量和初步预测的质量得分,随后将特征向量按照时间顺序组合成特征序列,将初步预测的质量得分在先验知识的指导下转化成各帧之间的影响因子,然后将它们作为长时序列融合网络的输入,得到视频的整体质量分数,完成质量评价过程。
[0012]本专利技术采用的技术方案为一种基于短时时空融合网络和长时序列融合网络的方法对视频质量进行无参考客观质量评价,包括以下步骤:
[0013]步骤1,由视频得到视频帧。
[0014]对于一个视频,需要通过切分成帧、等间隔下采样等操作得到一系列独立的视频帧,并以此作为VQA模型的输入:
[0015]步骤1.1,提取视频帧,将完整的视频序列从YUV等格式转化成BMP格式,逐帧保存;
[0016]步骤1.2,采样视频帧,以4为间隔选取视频帧,其他视频帧由于冗余直接丢弃。
[0017]步骤1.3,生成亮度图,将三通道的彩色视频帧转化成只有Y通道的亮度图。
[0018]步骤2,搭建并训练短时时空融合网络。
[0019]搭建并训练基于卷积神经网络(Convolutional Neural Networks,CNN)的短时时空融合网络,其输入为步骤1.2得到的视频帧,输出为64维的特征向量和初步预测的质量得分:
[0020]步骤2.1,使用UNet作为提取空间特征的网络,将步骤1.2生成的视频帧作为此网络的输入,大小为[Batch

Size
×3×
Width
×
Height],训练网络用到的标签为特征相似性指数方法(feature similarity index measure,FSIM)中的梯度幅值(Gradient Magnitude,GM)相似性;网络的输出为预测得到的GM相似性,大小为[Batch

Size
×1×
Width
×
Height];
[0021]步骤2.2,使用预训练完成的PWCNet作为提取时间特征的网络,将步骤1.2生成的视频帧作为此网络的输入,大小为[Batch

Size
×3×
Width
×
Height];将预测得到的光流
图转化为亮度图作为网络的输出,大小为[Batch

Size
×1×
Width
×
Height];
[0022]步骤2.3,搭建提取时空特征向量和初步质量分数的网络,网络的输入有两个,分别是步骤1.3生成的视频帧亮度图和步骤2.1生成的空间特征、步骤2.2生成的时间特征的组合,大小均为[Batch

Size
×本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法,其特征在于:该方法包括以下步骤:步骤1,由视频得到视频帧;对于一个视频,需要通过切分成帧、等间隔下采样操作得到独立的视频帧,并以此作为VQA模型的输入;步骤2,搭建并训练短时时空融合网络;搭建并训练基于卷积神经网络CNN的短时时空融合网络,其输入为步骤1得到独立的视频帧,输出为64维的特征向量和初步预测的质量得分;步骤3,得到若干视频段的特征序列和视频段中各帧相互的影响因子;通过训练好的短时时空融合网络,对每个视频帧生成一个64维的特征向量和初步预测的质量得分,并将特征向量按照时间顺序组合成特征序列,将初步预测的质量得分在先验知识的指导下转化成各帧彼此之间的影响因子;步骤4,搭建并训练长时序列融合网络;搭建并训练基于图卷积网络GCN的长时序列融合网络,输入为步骤3输出的定长特征序列和各帧彼此之间的影响因子,输出为视频的质量分数;步骤5,进行视频的质量评价;对一段视频进行切帧、采样、提取特征、质量评价。2.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法,其特征在于:由视频得到视频帧的步骤如下,步骤1.1,提取视频帧,将完整的视频序列从YUV等格式转化成BMP格式,逐帧保存;步骤1.2,采样视频帧,以4为间隔选取视频帧,其他视频帧由于冗余直接丢弃;步骤1.3,生成亮度图,将三通道的彩色视频帧转化成只有Y通道的亮度图。3.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法,其特征在于:搭建并训练短时时空融合网络的步骤如下,步骤2.1,使用UNet作为提取空间特征的网络,将步骤1.2生成的视频帧作为此网络的输入,大小为[Batch

Size
×3×
Width
×
Height],训练网络用到的标签为特征相似性指数方法FSIM中的梯度幅值GM相似性;网络的输出为预测得到的GM相似性,大小为[Batch

Size
×1×
Width
×
Height];步骤2.2,使用预训练完成的PWCNet作为提取时间特征的网络,将步骤1.2生成的视频帧作为此网络的输入,大小为[Batch

Size
×3×
Width
×
Height];将预测得到的光流图转化为亮度图作为网络的输出,大小为[Batch

Size
×1×
Width
×
Height];步骤2.3,搭建提取时空特征向量和初步质量分数的网络,网络的输入有两个,分别是步骤1.3生成的视频帧亮度图和步骤2.1生成的空间特征、步骤2.2生成的时间特征的组合,大小均为[Batch

Size
×2×
Width
×
Height],网络由5个卷积结构和4个全连接层构成,每个卷积结构由卷积层、池化层、正则化层和激活函数构成,卷积核个数分别为32、64、64、128、128,卷积核大小为3
×
3,池化层步长为2
×
2;全连接层的大小分别为1024、256、64和1;将第三、第四个全连接层的输出均作为网络的输出,第三层的输出为64维的特征向量,大小为[Batch

Size
×
6...

【专利技术属性】
技术研发人员:史萍王雪婷潘达
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1