基于内容的比特流层视频质量评价模型制造技术

技术编号:18260233 阅读:59 留言:0更新日期:2018-06-20 10:46
本发明专利技术公开了基于内容的比特流层视频质量评价模型,属于多媒体技术领域。压缩域模型可以直接从码流中提取视频参数,用于实时非侵入式的质量监控。模型主要针对H.264视频编码标准,用于编码失真的质量评估。建立感知质量和量化参数QP之间的基本关系。考虑到感知质量对于视频内容的明显依赖性,视频内容被定义为不同时间复杂度和空间复杂度的组合。本发明专利技术使用小尺寸预测块所占比例SPM_Ratio,I帧中平均每个4×4块所包含DCT非零数的比例Ave_Coef,同时来描述视频的空间复杂度。使用码流中运动矢量信息后缀长度平均值归一化参数Ave_Mvlen来描述视频的空间复杂度。所有信息都可直接从码流中提取出来,而不需要进行解码操作。

Content based quality evaluation model for bitstream video

The invention discloses a content based bitstream video quality evaluation model, which belongs to the multimedia technology field. The compressed domain model can extract video parameters directly from the bitstream, and is used for real-time non intrusive quality monitoring. The model mainly aims at the H.264 video coding standard, which is used for the quality evaluation of coding distortion. Establish the basic relationship between perceived quality and quantization parameter QP. Considering the obvious dependence of perceptual quality on video content, video content is defined as a combination of different time complexity and spatial complexity. The invention uses the proportion of SPM_Ratio in small size prediction blocks, and an average of 4 x 4 blocks in I frame including the proportion of DCT non zero numbers Ave_Coef, and also describes the spatial complexity of the video. The spatial complexity of video is described by using the normalization parameter Ave_Mvlen of the motion vector information suffix length average. All information can be extracted directly from the bitstream without decoding operation.

【技术实现步骤摘要】
基于内容的比特流层视频质量评价模型
本专利技术提出了一种基于压缩域的视频质量评价模型,属于多媒体

技术介绍
近年来,随着多媒体技术的蓬勃发展,网络视频服务,可视电话,IPTV等在我们的日常生活中已经获得明显的普及。然而,这些应用的质量时常无法得到实时的监控和保证。因此,建立一种网络视频质量评估的客观模型变得非常有必要。从是否需要原始视频信息的角度来讲,视频质量评价可以分为主观评价和客观评价两种。主观评价需要受测者在特定环境下,观察一系列的被测视频,按照事先规定的评分标准进行评分。主要的方法有:DSIS(DoubleStimulusImpairmentScale)法,DSCQS(DoubleStimulusContinuousQualityScale)法,SSIM(SingleStimulusMethods)法,SSCQE(SingleStimulusContinuousQualityEvaluation)法。主观评价方法最常用的打分标准是MOS标准,MOS分数由5到1代表感知质量越来越差。主观评价是能最直接反映人对视频质量的感知水平的方法,但缺点是主观实验费时费力,且容易受到观察者自身认知水平的影响。客观评价一般通过数学计算的方法来对视频序列进行打分。根据对原始视频的依赖程度不用,又可以分为3类:全参考、部分参考、无参考。全参考模型需要原始视频的全部信息,常用的方法有PSNR、SSIM、MS-SSIM等。全参考模型需要评估完整的原始视频信息,也就是未经压缩的像素数据,这个量级的数据一般是无法实时传输的,这也就导致无法远程实时监控和评估视频质量。为了解决这个问题,人们提出了部分参考模型。部分参考模型需要原始视频的部分信息。这类方法通常会提取原始视频的某些特征值,利用它们来评价视频质量。作为一种折中方案,它能解决远程传输的问题,但是其准确度较低。无参考模型不再需要失真前的数据,而仅需要观众实际得到的视频信息。这类方法实现起来比较困难,但是一旦实现,即可很灵活地应用在视频相关的各个领域,是一种比较理想的视频质量评价手段。但到目前为止,无参考方法仍然没有一个较为成熟的方案,一方面因为其准确性不是特别高,另一方面其对视频内容有比较大的依赖性,普适性不能得到保证。根据输入信息的来源不同,客观评价模型可以被分为:参数模型,包层模型,比特流层模型,媒体层模型和混合模型。参数模型往往从网络中提取参数,例如丢包率,延迟,比特率等等,常被用于QoE评估。包层模型利用包头信息来获取服务质量的信息,例如帧类型,I帧和P帧的比例等等。比特流层模型是从编码比特流中提取相关的有效信息,这种模型是一种非侵入式的评估方法,重点在于提高模型的准确性。媒体层模型是利用媒体信号来评估视频质量。这种模型需要重建视频,因此也被称为基于像素的模型。混合模型使用的信息来自比特流和像素域的组合,因此在某些应用上面具有比较好的性能。整体而言,参数模型和包层模型由于无法访问有效载荷信息,因此模型精度不高。媒体模型和混合模型需要完全解码视频才能获得基于像素域的视频信息,因此非常耗时耗力。因此,比特流层模型是一个折中的度量方法,可以实现相对较高的准确度和较低的计算量。网络视频失真主要有两个主要原因:编码时的量化失真和传输时的丢包失真。其中,编码失真的评估是视频质量评估的基础,很大程度上也是最关键的部分。因此,本专利技术致力于解决H.264视频的编码失真评估问题。根据人眼视觉系统的掩蔽效应,人类对不同内容的视频具有不同的敏感程度。因此,视频的纹理和运动特性也是影响视频感知质量的重要影响因素。一些文章使用像素域的特征信息,例如空间信息(spatialinformation,SI)和时间感知信息(temporalinformation,TI)来描述视频序列的特征,使视频质量评估更加准确[17]。此类方法需要完整的解码,也就意味着更高的计算复杂度。一些比特流层模型无需解码,专注于PSNR的估计,但许多研究表明PNSR与感知质量之间的相关性很差。一些文献表明量化参数QP是影响视频失真的最主要因素,而视频内容信息,例如空间复杂度则次之。一些文献提出一种基于时间特征的比特流层模型。其中,基于运动的特征参数以及比特率被用于质量评估,但其尚未考虑空间特征。一些文献提出了使用DCT系数等来评估视频编码失真,然后其并没有考虑时间特征。一些文献中的模型公式表明客观分数和QP之间呈现线性关系,而事实上线性关系并不能代表感知质量与影响因素之间的关系。一些文献针对H.264视频,然而并没有考虑到视频内容,因此并不能提供一个更准确的评估方式。值得一提的是,随着深度学习的火热发展,深度神经网络也被用于视频及图像质量评价领域。一些文献使用ImageNet作为工具,进行图像的质量评估。一些文献使用轻量化的RBM网络,以及来自LIVE数据库的9个原始视频来建立视频质量评价模型。但是,深度学习需要大量的视频数据,而常用的数据库并不能达到这个数量级。另外,至今仍然没有完整的科学理论来支撑深度学习的可行性,因此深度学习目前并没有在视频质量评价方向获得更多的认可和成果。
技术实现思路
为了对不同内容的视频进行质量评价,本专利技术提出了一种基于压缩域的视频质量评价模型。压缩域模型可以直接从码流中提取视频参数,用于实时非侵入式的质量监控。模型主要针对H.264视频编码标准,用于编码失真的质量评估。首先,建立感知质量和量化参数QP之间的基本关系。然后,考虑到感知质量对于视频内容的明显依赖性,视频内容被定义为不同时间复杂度和空间复杂度的组合。本专利技术使用小尺寸预测块所占比例SPM_Ratio,I帧中平均每个4×4块所包含DCT非零数的比例Ave_Coef,同时来描述视频的空间复杂度。使用码流中运动矢量信息后缀长度平均值归一化参数Ave_Mvlen来描述视频的空间复杂度。以上所有信息都可直接从码流中提取出来,而不需要进行解码操作。由于使用内容信息,所提模型可适应于不同的视频内容。本专利技术采用的技术方案为基于内容的比特流层视频质量评价模型,该模型的实施包括以下步骤:S1.感知质量与量化参数由于H.264是基于块的DCT压缩方法,块失真是最主要的编码失真,在H.264/AVC编码标准中有52个量化步长Qstep值,通过量化参数QP索引,每隔6个QP,Qstep就增长一倍。Qstep=2(Qp-4)/6(1)Qstep是由QP决定的,因此,QP是反映编码失真的关键参数,选取四组标准测试视频序列,用恒定QP进行编码。通过改变QP值,获得对应的MOS分数值。该关系可以被描述为一个倒S的曲线,在QP较小时MOS下降不大,之后MOS快速下降,而最后趋于平滑且取值接近。不同的视频形状各不相同。四组标准测试视频序列分别为足球,电影,工头,母女;即Football,Mobile,Foreman,mother_daugher。具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频,Football,Mobile在相同QP条件下,具有相对较高的感知质量。相应地,Mother_daugher的运动剧烈度和纹理丰富度较低,在相同QP条件下感知质量较低。而Foreman具有中等的时间和空间复杂度,以及中等的感知分数。这种差异符合HVS的掩蔽本文档来自技高网
...
基于内容的比特流层视频质量评价模型

【技术保护点】
1.基于内容的比特流层视频质量评价模型,其特征在于:该模型的实施包括以下步骤:S1.感知质量与量化参数由于H.264是基于块的DCT压缩方法,块失真是最主要的编码失真,在H.264/AVC编码标准中有52个量化步长Qstep值,通过量化参数QP索引,每隔6个QP,Qstep就增长一倍;Qstep=2(Qp‑4)/6                           (1)Qstep是由QP决定的,因此,QP是反映编码失真的关键参数,选取四组标准测试视频序列,用恒定QP进行编码;通过改变QP值,获得对应的MOS分数值;该关系可以被描述为一个倒S的曲线,在QP较小时MOS下降不大,之后MOS快速下降,而最后趋于平滑且取值接近;不同的视频形状各不相同;四组标准测试视频序列分别为足球,电影,工头,母女;即Football,Mobile,Foreman,mother_daugher;具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频,Football,Mobile在相同QP条件下,具有相对较高的感知质量;相应地,Mother_daugher的运动剧烈度和纹理丰富度较低,在相同QP条件下感知质量较低;而Foreman具有中等的时间和空间复杂度,以及中等的感知分数;这种差异符合HVS的掩蔽效应,视频内容在影响感知质量中扮演重要角色;将视频内容特征的影响加入到视频质量评价中去;充分利用视频内容的两个主要特征因素:空间复杂度和时间复杂度;S2.空间复杂度H.264编解码主要分为5个部分:帧内和帧间预测Estimation,变换Transform和反变换,量化Quantization和反量化,环路滤波LoopFilter,熵编码;H.264采用了更多有效的帧内与帧间预测模式,对于帧内预测编码,H.264提供了9种模式的4×4预测模式,适用于带有大量细节的图像编码,以及4种16×16预测模式,适用于平坦区域的图像编码;对于帧间预测编码,H.264支持7种宏块分割模式,分别是16×16、16×8、8×8、8×4、4×8和4×4,每个分割块或者子宏块都有独立的运动补偿,大的分割尺寸对应平坦区域,小尺寸对应细节较多的区域;因此,小尺寸的预测模式可以反映纹理细节较多的区域;为此,定义帧间8×8、8×4、4×8、4×4以及帧内4×4为小尺寸预测模式SPM(Small Prediction Mode);所以小尺寸预测块的个数总和记为SPM_total,所有预测块的个数总和记为Prdmode_total;则小尺寸预测块占所有预测块总数的比例SPM_Ratio,就能说明视频序列包含的细节丰富程度;其值越大,证明视频纹理越丰富,即空间复杂度越高,感知质量越高,反之则越小;4×4块数据经过预测、变换、量化后的数据表现出如下特性:非零系数主要集中在低频部分,包括了图像的大部分内容;而高频系数大部分是零;因此,DCT系数很大程度上反映了视频纹理丰富度;为此,定义了I帧中平均每个4×4块包含的非零数比例,用来表示纹理的丰富程度;...

【技术特征摘要】
1.基于内容的比特流层视频质量评价模型,其特征在于:该模型的实施包括以下步骤:S1.感知质量与量化参数由于H.264是基于块的DCT压缩方法,块失真是最主要的编码失真,在H.264/AVC编码标准中有52个量化步长Qstep值,通过量化参数QP索引,每隔6个QP,Qstep就增长一倍;Qstep=2(Qp-4)/6(1)Qstep是由QP决定的,因此,QP是反映编码失真的关键参数,选取四组标准测试视频序列,用恒定QP进行编码;通过改变QP值,获得对应的MOS分数值;该关系可以被描述为一个倒S的曲线,在QP较小时MOS下降不大,之后MOS快速下降,而最后趋于平滑且取值接近;不同的视频形状各不相同;四组标准测试视频序列分别为足球,电影,工头,母女;即Football,Mobile,Foreman,mother_daugher;具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频,Football,Mobile在相同QP条件下,具有相对较高的感知质量;相应地,Mother_daugher的运动剧烈度和纹理丰富度较低,在相同QP条件下感知质量较低;而Foreman具有中等的时间和空间复杂度,以及中等的感知分数;这种差异符合HVS的掩蔽效应,视频内容在影响感知质量中扮演重要角色;将视频内容特征的影响加入到视频质量评价中去;充分利用视频内容的两个主要特征因素:空间复杂度和时间复杂度;S2.空间复杂度H.264编解码主要分为5个部分:帧内和帧间预测Estimation,变换Transform和反变换,量化Quantization和反量化,环路滤波LoopFilter,熵编码;H.264采用了更多有效的帧内与帧间预测模式,对于帧内预测编码,H.264提供了9种模式的4×4预测模式,适用于带有大量细节的图像编码,以及4种16×16预测模式,适用于平坦区域的图像编码;对于帧间预测编码,H.264支持7种宏块分割模式,分别是16×16、16×8、8×8、8×4、4×8和4×4,每个分割块或者子宏块都有独立的运动补偿,大的分割尺寸对应平坦区域,小尺寸对应细节较多的区域;因此,小尺寸的预测模式可以反映纹理细节较多的区域;为此,定义帧间8×8、8×4、4×8、4×4以及帧内4×4为小尺寸预测模式SPM(SmallPredictionMode);所以小尺寸预测块的个数总和记为SPM_total,所有预测块的个数总和记为Prdmode_total;则小尺寸预测块占所有预测块总数的比例SPM_Ratio,就能说明视频序列包含的细节丰富程度;其值越大,证明视频纹理越丰富,即空间复杂度越高,感知质量越高,反之则越小;4×4块数据经过预测、变换、量化后的数据表现出如下特性:非零系数主要集中在低频部分,包括了图像的大部分内容;而高频系数大部分是零;因此,DCT系数很大程度上反映了视频纹理丰富度;为此,定义了I帧中平均每个4×4块包含的非零数比例,用来表示纹理的丰富程度;其中,Coeff_Token是所有4×4块非零个数的总和,Inum是I帧的数目,BLKnum是每帧4×4块数目,16是归一化的系数,即非零数最大值;AV...

【专利技术属性】
技术研发人员:李晨昊张美娜
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1