【技术实现步骤摘要】
基于内容引导的无参考视频质量评价方法
[0001]本专利技术涉及视频处理
,特别涉及一种基于内容引导的无参考视频质量评价方法和一种计算机设备
。
技术介绍
[0002]相关技术中,无参考视频质量评价方法主要针对特定类型的失真,如压缩和传输失真,来量化视频的质量;然而,由于视频内容的多样性和复杂性,在处理各种失真类型时效果有限;近年来,随着深度学习技术的快速发展,基于深度学习的无参考视频质量评价方法逐渐崭露头角;基于深度学习的方法通过使用深度神经网络来提取视频的高层次
、
可区分的特征,从而能够更好地对视频质量进行评估;这些方法通常采用
2D
‑
CNN
和
3D
‑
CNN
结构,并结合时序模块来捕捉视频帧之间的时序关系;通过对视频的空间特征和时序特征的融合,基于深度学习的方法在无参考视频质量评价中取得了一定的成功;但是,在时序信息的融合方面,循环神经网络
(RNN)
的效果不理想,并且无法充分考虑到视频主旨内容与帧内容的依赖关系对人类主观质量感知的影响;此外,无参考视频质量评价仍然缺乏一个高效且成熟的方法,尽管基于深度学习的方法取得了一定的进展,但仍需要进一步的研究和改进
。
技术实现思路
[0003]本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一
。
为此,本专利技术的一个目的在于提出一种基于内容引导的无参考视频质量评价方法,该方法能够利用视频内容引导时 ...
【技术保护点】
【技术特征摘要】
1.
一种基于内容引导的无参考视频质量评价方法,其特征在于,包括以下步骤:获取待评价的视频片段;构建基于
SwinTransformerV2
的特征提取网络,并将所述待评价的视频片段输入到所述特征提取网络,以便得到所述待评价的视频片段对应的帧级特征和语义内容特征;构建基于
Transformer
编码器的时序信息捕获网络,以便根据所述时序信息捕获网络得到所述帧级特征间的时序依赖关系;构建用于传递所述语义内容特征的超网络,并使用所述超网络将所述语义内容特征分别重塑为所述
Transformer
编码器中的查询和质量感知头;将所述帧级特征间的时序依赖关系和所述查询输入到所述
Transformer
编码器中,以便得到带有由视频内容引导的时序依赖关系的帧级质量特征;采用所述质量感知头对所述帧级质量特征进行预测,以得到所述待评价的视频片段对应的视频质量分数
。2.
如权利要求1所述的基于内容引导的无参考视频质量评价方法,其特征在于,构建基于
SwinTransformerV2
的特征提取网络,并将所述待评价的视频片段输入到所述特征提取网络,以便得到所述待评价的视频片段对应的帧级特征和语义内容特征,包括:在
ImageNet
上预训练
SwinTransformerV2
,以得到所述特征提取网络;采用所述特征提取网络对所述待评价的视频片段进行逐帧特征提取,以得到四个不同阶段对应的深度特征;采用金字塔池化策略将前三个阶段的深度特征利用全局平均池化压缩为与第四个阶段相同的特征,并将所述四个不同阶段对应的深度特征进行串联后通过卷积压缩特征通道,并使用全局平均池化将其压缩为一维向量,以便作为所述帧级特征;采用时序池化将所述第四个阶段对应的深度特征的时间尺度压缩为一,以便作为所述语义内容特征
。3.
如权利要求1所述的基于内容引导的无参考视频质量评价方法,其特征在于,构建基于
Transformer
编码器的时序信息捕获网络,以便根据所述时序信息捕获网络得到所述帧级特征间的时序依赖关系,包括:采用基于图卷积网络的滑动窗口将所述帧级特征中的若干帧压缩为一个
token
,以便得到多个
token
;采用
Sinusoidal
位置编码获取所述多个
token
对应的位置信息,并将其加在对应的
token
上,以得到多个携带位置信息的
token。4.
如权利要求3所述的基于内容引导的无参考视频质量评价方法,其特征在于,根据以下公式得到每个
token
:
token
=
TP(A
δ
(AXW1)W2)
其中,
TP(
·
)
表示时序池化;
A
表示邻接矩阵;
δ
(
·
)
表示激活函数;
X
表示输入滑动窗口内的若干帧的特征组合;
W1和
W2表示可训练的权重矩阵
。5.
如权利要求4所述的基于内容引导的无参考视频质量评价方法,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。