一种基于深度学习的全参考超高清视频质量客观评价方法技术

技术编号:33735597 阅读:18 留言:0更新日期:2022-06-08 21:32
本发明专利技术公开了一种基于深度学习的全参考超高清视频质量客观评价方法,被测超高清视频及对应的参考视频分别经过抽帧和图像块裁剪操作,得到被测视频图像块序列和对应的参考视频图像块序列。将被测视频图像块和对应的参考视频图像块成对输入到训练好的图像质量评价网络,得到被测视频图像块的质量分数。对图像块的质量分数进行空域池化和时域池化,得到被测视频的客观质量分数。本发明专利技术对超高清视频进行抽帧和图像块裁剪处理,有效减少了数据量,提升了算法效率;采用基于ResNet18的特征提取网络,提升了网络的训练效果,使网络能够有效提取图像特征;充分考虑人眼的视觉特点,对图像质量分数进行了空域池化和时域池化。像质量分数进行了空域池化和时域池化。像质量分数进行了空域池化和时域池化。

【技术实现步骤摘要】
一种基于深度学习的全参考超高清视频质量客观评价方法


[0001]本专利技术属于数字图像及数字视频处理
,尤其涉及一种基于深度学习的全参考超高清视频质量客观评价方法。

技术介绍

[0002]超高清视频经过采集、压缩、存储、传输、显示等处理环节后会引入不同类型和不同程度的失真,从而导致视频质量的下降。因此,研究高效且准确的视频质量评价方法对于超高清视频业务的质量监控以及对于相关系统或设备的研发都具有重要意义。
[0003]视频质量评价又分为主观评价和客观评价两大类型。主观评价是由观察者直接对视频质量进行评分,因此能够真实反映视频图像的感知质量,评价结果可靠。但主观评价需要在特定的实验室环境中进行,而且需要大量观察者进行多次重复实验,耗时耗力,难以满足实际应用场景的需求。客观评价是根据人眼视觉特性建立评价模型,由模型自动完成视频质量评价任务。相较于主观评价,客观评价具有更多的应用场景和更广泛的应用需求。
[0004]根据评价时是否使用原始无失真参考视频信息,视频质量客观评价方法可分为全参考、半参考以及无参考三种类型。全参考方法是指评价时可以使用参考视频的全部信息,半参考是指评价时只能使用参考视频的部分信息,而无参考是指评价时不使用参考视频的任何信息。由于全参考方法可以充分利用参考视频的所有信息,因此评价性能要优于其他两类方法,在某些应用场合可以代替主观评价方法来完成视频质量评价任务。
[0005]当前已有的全参考视频质量客观评价方法中,基于深度学习的方法对于一般视频的质量评价显示出较好的性能,但如果用这些方法对超高清视频进行质量评价,则难以取得良好效果。主要原因是超高清视频具有高分辨率、高帧率的特点,用已有方法处理超高清视频时,超大数据量会导致质量评价模型的计算效率大幅下降。另外,已有方法大多基于单帧图像的质量评价,在时域融合方面未充分考虑人眼的视觉特性。因此,提出一种高效、准确的全参考超高清视频质量评价方法非常必要。

技术实现思路

[0006]针对现有全参考视频质量评价算法无法很好地适用于高分辨率、高帧率的超高清视频的问题,本专利技术提出了一种基于深度学习的全参考超高清视频质量客观评价方法,通过对深度学习网络进行训练,使其能够模拟主观评价结果对超高清视频进行质量评价,包括以下步骤:
[0007]步骤1,建立图像质量评价数据集。
[0008]选取超高清视频质量评价数据库,对数据库中的每个失真视频及其对应的参考视频(即无失真的源视频)进行抽帧和图像块裁剪。将每个失真视频的主观评价MOS值赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个失真视频图像块的MOS值就是该图像块所属的失真视频的MOS值。
[0009]每个失真视频图像块及其MOS值以及对应的参考视频图像块一起构成图像质量评
价数据集,用于训练基于深度学习的全参考图像质量评价网络。
[0010]步骤1.1,选取超高清视频质量评价数据库。数据库应包含无失真的超高清视频作为参考视频,以及由参考视频经压缩、加噪等处理的失真视频。每个失真视频须有主观评价MOS值。参考视频不少于20段,每段时长不少于10秒,帧频fF不低于50赫兹。每个源视频产生不少于5个不同损伤程度的失真视频。视频内容应尽可能包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等典型场景;
[0011]步骤1.2,对每个参考视频及其对应的失真视频进行抽帧,抽帧率fS不低于1:50,得到参考视频及对应失真视频的抽帧图像序列;
[0012]步骤1.3,对抽帧图像序列中的每一帧图像进行图像块裁剪,每帧图像裁剪出5个图像块,分别位于帧图像的中心,以及与中心图像块相邻的左上、左下、右上、右下四个区域。每个图像块的大小为帧图像的1/16,即图像块在水平和垂直方向的像素数均为帧图像的1/4;
[0013]步骤1.4,将每个失真视频的主观评价MOS值赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个失真视频图像块的MOS值就是该图像块所属的失真视频的MOS值。每个失真视频图像块及其MOS值以及对应的参考视频图像块一起构成图像质量评价数据集,用于训练基于深度学习的图像质量评价网络。
[0014]步骤2,训练基于深度学习的图像质量评价网络。
[0015]用图像质量评价数据集中的失真视频图像块及其MOS值以及对应的参考视频图像块作为训练数据,对基于深度学习的图像质量评价网络进行训练,训练步骤如下:
[0016]步骤2.1,搭建基于ResNet18的图像质量评价网络,该网络由特征提取模块和质量回归模块组成。特征提取模块由两个独立的ResNet18网络和一个特征合并层(Concat层)构成。每个ResNet18网络的输入为一个R、G、B三通道的彩色图像,输出为对应的特征向量。特征合并层将两个ResNet18网络输出的特征向量合并为一个特征向量。质量回归模块由两个全连接层级联而成,输入为特征向量,输出为对应的质量分数;
[0017]步骤2.2,将图像质量评价数据集中的失真视频图像块和对应的参考视频图像块成对输入到图像质量评价网络,将对应的主观评价MOS值作为标签,使用Adam更新策略和L1损失函数对网络进行训练。
[0018]步骤3,对被测超高清视频进行全参考视频质量评价。
[0019]对被测视频及其参考视频进行抽帧和图像块裁剪,将裁剪得到的被测视频图像块及对应的参考视频图像块成对输入到训练好的图像质量评价网络,得到每一个被测视频图像块的客观质量分数。最后将每个图像块的客观质量分数进行空域池化和时域池化,即得到被测视频的客观质量分数。
[0020]步骤3.1,按照步骤1.2对被测超高清视频及其参考视频进行抽帧,得到被测视频及其参考视频的抽帧图像序列,设抽帧图像序列的帧数为N;
[0021]步骤3.2,按照步骤1.3对抽帧图像序列中的每一帧图像进行图像块裁剪,得到被测视频图像块序列和对应的参考视频图像块序列;
[0022]步骤3.3,将被测视频图像块序列中的图像块和参考视频图像块序列中对应的图像块成对输入到训练好的图像质量评价网络,得到每一个被测视频图像块的质量分数q
i
(k),其中i表示被测视频抽帧图像序列的帧序号(i=1,2,

,N),k表示一帧图像中的图像
块序号,k=0,1,2,3,4分别表示中心块、左上块、右上块、左下块、右下块;
[0023]步骤3.4,将属于同一帧图像的5个图像块的质量分数进行空域池化,即对5个图像块的质量分数进行加权平均,得到该帧图像的质量分数q
i
。具体计算方法如公式(1)所示;
[0024][0025]步骤3.5,对每帧图像的质量分数进行时域池化操作,包括前向最小池化和后向平均池化。其中前向最小池化是将当前帧的质量分数设置为当前帧之前L帧(不含当前帧)质量分数的最小值,后向平均池化是将当前帧的质量分数设置为当前帧及当前帧之后L帧的质量分数的平均值。L为池化长度,L的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的全参考超高清视频质量客观评价方法,其特征在于:该方法包括以下步骤:步骤1,建立图像质量评价数据集;选取超高清视频质量评价数据库,对超高清视频质量评价数据库中的每个失真视频及其对应的参考视频即无失真的源视频进行抽帧和图像块裁剪;将每个失真视频的主观评价MOS值赋予由该失真视频经抽帧和图像块裁剪得到的图像块,即每个失真视频图像块的MOS值就是该图像块所属的失真视频的MOS值;每个失真视频图像块及其MOS值以及与之对应的参考视频图像块一起构成图像质量评价数据集,用于训练基于深度学习的全参考图像质量评价网络;步骤2,训练基于深度学习的图像质量评价网络;用图像质量评价数据集中的失真视频图像块及其MOS值以及与之对应的参考视频图像块作为训练数据,对基于深度学习的图像质量评价网络进行训练;步骤3,对被测超高清视频进行全参考视频质量评价;对被测视频及其参考视频进行抽帧和图像块裁剪,将裁剪得到的被测视频图像块及对应的参考视频图像块成对输入到训练好的图像质量评价网络,得到每一个被测视频图像块的客观质量分数;最后将每个图像块的客观质量分数进行空域池化和时域池化,即得到被测视频的客观质量分数。2.根据权利要求1所述的一种基于深度学习的全参考超高清视频质量评价方法,其特征在于:建立图像质量评价数据集,步骤如下:步骤1.1,选取超高清视频质量评价数据库;数据库应包含无失真的超高清视频作为参考视频,以及由参考视频经压缩、加噪处理的失真视频;每个失真视频须有主观评价MOS值;参考视频不少于20段,每段时长不少于10秒,视频内容应尽可能包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动典型场景;步骤1.2,对每个参考视频及其对应的失真视频进行抽帧处理,抽帧率不低于1:50,得到参考视频及其对应失真视频的抽帧图像序列;步骤1.3,对抽帧图像序列中的每一帧图像进行图像块裁剪,每帧图像裁剪出5个图像块,分别位于帧图像的中心,以及与中心图像块相邻的左上、左下、右上、右下四个区域,每个图像块的大小为帧图像的1/16,即图像块在水平和垂直方向的像素数均为帧图像的1/4;步骤1.4,将每个失真视频的主观评价MOS值赋予由该失真视频经抽帧和图像块裁剪得到的图像块,即每个失真视频图像块的MOS值就是该图像块所属的失真视频的MOS值;每个失真视频图像块及其MOS值以及与之对应的参考视频图像块一起构成图像质量评价数据集,用于训练基于深度学习的图像质量评价网络。3.根据权利要求1所述的一种基于深度学习的全参考超高清视频质量评价方法,其特征在于:训练基于深度学习的图像质量评价网络,步骤如下:步骤2.1,搭建基于ResNet18的图像质量评价网络,该ResNet18的图像质量评价网络由特征提...

【专利技术属性】
技术研发人员:史萍费凌云应泽峰潘达耿仪
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1