一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法技术

技术编号：31312525 阅读：22 留言：0更新日期：2021-12-12 21:47

本发明专利技术公开了一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，将视频帧依次通过两种计算不同时间长度的网络来实现质量的预测。短时时空融合网络用于提取并融合当前帧的时空特征，得到当前帧中时间特征作用于空间特征后的结果。长时序列融合网络用于在先验知识的指导下对一段时间内各帧之间相互作用的结果进行建模并预测视频的质量分数。本方法以视频帧作为输入，通过在帧级别上设计网络从而融合时间和空间特征，在序列级别上考虑帧间关系从而进一步细化当前帧特征的方式，利用深度学习预测一段视频中各帧的质量，最终完成对视频整体质量评价的任务。本发明专利技术由于细化且丰富了视频帧的特征，因此在模型性能上有了显著提高。模型性能上有了显著提高。模型性能上有了显著提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法

[0001]本专利技术涉及一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，属于数字视频处理

技术介绍

[0002]视频作为视觉信息的一种复杂来源,蕴含了大量的有价值信息。视频质量的好坏直接影响到人们的主观感受和信息量获取,并且可以指导相关设备研发、系统监测、质量恢复等其他视频任务，视频质量评价(Video Quality Assessment,VQA)的研究也在近几年受到广泛的重视。
[0003]视频质量评价方法可以分为主观评价方法和客观评价方法。主观评价是由观察者对视频质量进行主观评分，虽然评分结果符合人的主观感受但同时具有工作量大、耗时长等缺点；客观评价方法是由计算机根据一定算法计算得到视频的质量指标，根据评价时是否需要参考视频又可以分为全参考(Full Reference,FR)、半参考(部分参考)(Reduced Reference,RR)和无参考(No Reference,NR)这三类评价方法：
[0004](1)全参考视频质量评价方法。FR算法是指在给定理想视频作为参考视频的标准下，比较待评价视频与参考视频之间的差异，分析待评价视频的失真程度，从而得到待评价视频的质量评估结果。常见的FR方法的有：基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。FR算法是目前为止在客观视频质量评价中最可靠的方法。
...

【技术保护点】

【技术特征摘要】
1.一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：该方法包括以下步骤：步骤1，由视频得到视频帧；对于一个视频，需要通过切分成帧、等间隔下采样操作得到独立的视频帧，并以此作为VQA模型的输入；步骤2，搭建并训练短时时空融合网络；搭建并训练基于卷积神经网络CNN的短时时空融合网络，其输入为步骤1得到独立的视频帧，输出为64维的特征向量和初步预测的质量得分；步骤3，得到若干视频段的特征序列和视频段中各帧相互的影响因子；通过训练好的短时时空融合网络，对每个视频帧生成一个64维的特征向量和初步预测的质量得分，并将特征向量按照时间顺序组合成特征序列，将初步预测的质量得分在先验知识的指导下转化成各帧彼此之间的影响因子；步骤4，搭建并训练长时序列融合网络；搭建并训练基于图卷积网络GCN的长时序列融合网络，输入为步骤3输出的定长特征序列和各帧彼此之间的影响因子，输出为视频的质量分数；步骤5，进行视频的质量评价；对一段视频进行切帧、采样、提取特征、质量评价。2.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：由视频得到视频帧的步骤如下，步骤1.1，提取视频帧，将完整的视频序列从YUV等格式转化成BMP格式，逐帧保存；步骤1.2，采样视频帧，以4为间隔选取视频帧，其他视频帧由于冗余直接丢弃；步骤1.3，生成亮度图，将三通道的彩色视频帧转化成只有Y通道的亮度图。3.根据权利要求1所述的一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法，其特征在于：搭建并训练短时时空融合网络的步骤如下，步骤2.1，使用UNet作为提取空间特征的网络，将步骤1.2生成的视频帧作为此网络的输入，大小为[Batch
‑
Size
×3×
Width
×
Height]，训练网络用到的标签为特征相似性指数方法FSIM中的梯度幅值GM相似性；网络的输出为预测得到的GM相似性，大小为[Batch
‑
Size
×1×
Width
×
Height]；步骤2.2，使用预训练完成的PWCNet作为提取时间特征的网络，将步骤1.2生成的视频帧作为此网络的输入，大小为[Batch
‑
Size
×3×
Width
×
Height]；将预测得到的光流图转化为亮度图作为网络的输出，大小为[Batch
‑
Size
×1×
Width
×
Height]；步骤2.3，搭建提取时空特征向量和初步质量分数的网络，网络的输入有两个，分别是步骤1.3生成的视频帧亮度图和步骤2.1生成的空间特征、步骤2.2生成的时间特征的组合，大小均为[Batch
‑
Size
×2×
Width
×
Height]，网络由5个卷积结构和4个全连接层构成，每个卷积结构由卷积层、池化层、正则化层和激活函数构成，卷积核个数分别为32、64、64、128、128，卷积核大小为3
×
3，池化层步长为2
×
2；全连接层的大小分别为1024、256、64和1；将第三、第四个全连接层的输出均作为网络的输出，第三层的输出为64维的特征向量，大小为[Batch
‑
Size
×
6...

【专利技术属性】
技术研发人员：史萍，王雪婷，潘达，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人