当前位置: 首页 > 专利查询>华侨大学专利>正文

基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置制造方法及图纸

技术编号:39660974 阅读:13 留言:0更新日期:2023-12-11 18:23
本发明专利技术公开了一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置,该方法包括:获取视频中采用随机抽样方式抽取的视频帧;构建视频质量评价模型并进行训练,得到经训练的视频质量评价模型,视频质量评价模型包括依次连接的特征提取模块

【技术实现步骤摘要】
基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置


[0001]本专利技术涉及图像处理领域,具体涉及一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置


技术介绍

[0002]随着移动互联网和便携式通讯设备的快速发展催生了一大批新型的媒体形式

以屏幕视频内容为代表的新型视频数据类型被广泛应用于如游戏直播

在线会议

在线教育等场景中,有关于屏幕视频质量评价相关的研究也一直是计算机视觉领域里的热点问题

与传统的自然视频不同的是,屏幕内容视频主要是指由计算机生成的视频,通常包含计算机图形文本

自然场景与图形文本的混合场景以及由计算机生成的动画等场景,包含复杂的纹理以及锐利的边缘特征

[0003]屏幕视频在采集

传输和显示等过程中通常会产生各种失真,导致视频质量受到影响

这些失真会影响到用户体验,降低主观感知的视觉效果

因此提出一种符合人眼视觉特性并能准确快速的对屏幕视频的质量做出评价的算法是非常重要的

[0004]现阶段大部分视频质量评价算法都主要集中在自然视频领域并且主要是全参考视频质量评价,但由于屏幕内容视频和自然视频具有不同的时空特性导致了直接将自然视频相关的质量评价算法迁移到屏幕内容视频上效果相对较差,并且无参考的视频质量评价会更具有现实意义

因此设计符合人类视觉特性和屏幕视频特点的质量评价算法具有重要的理论研究意义和实际应用价值


技术实现思路

[0005]针对上述提到的技术问题

本申请的实施例的目的在于提出了一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置,来解决以上
技术介绍
部分提到的技术问题

[0006]第一方面,本专利技术提供了一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法,包括以下步骤:
[0007]获取视频中采用随机抽样方式抽取的视频帧;
[0008]构建视频质量评价模型并进行训练,得到经训练的视频质量评价模型,视频质量评价模型包括依次连接的特征提取模块

通道注意力模块

视频时序特征提取模块和平均池化层,特征提取模块用于提取视频帧中的多尺度特征,通道注意力模块用于对多尺度特征进行特征加权,视频时序特征提取模块用于进行特征提取得到时空维度特征,并经过平均池化层计算视频对应的质量分数,通道注意力模块包括自适应平均池化层

自适应最大池化层

两个三维卷积神经网络层和
Sigmoid
激活函数层;
[0009]将视频帧输入经训练的视频质量评价模型,得到视频的质量分数

[0010]作为优选,特征提取模块采用预训练的
VGG16
模型,将视频帧输入预训练的
VGG16
模型,从预训练的
VGG16
模型的第二层卷积层

第七层卷积层和第十三层卷积层提取第一特征

第二特征和第三特征,公式如下:
[0011][0012][0013][0014]其中,
frame
表示从视频中抽取出来的视频帧,
Conv2、Conv7、Conv13
表示预训练的
VGG16
模型中对应的第二层卷积层

第七层卷积层和第十三层卷积层,
i
表示不同采样率所得到的视频帧的帧数,分别表示第一特征

第二特征和第三特征

[0015]作为优选,通道注意力模块中,多尺度特征分别输入自适应平均池化层和自适应最大池化层,得到多尺度平均特征和多尺度最大特征,多尺度平均特征和多尺度最大特征分别输入两个三维卷积神经网络层,得到第四特征和第五特征,第四特征和第五特征通过相加的方式进行组合并经过
Sigmoid
激活函数层,得到提纯特征

[0016]作为优选,多尺度特征分别输入自适应平均池化层和自适应最大池化层,得到多尺度平均特征和多尺度最大特征,具体操作如下:
[0017][0018][0019][0020][0021]其中,
AAP2d()

AMP2d()
分别表示自适应平均池化操作和自适应最大池化操作,表示对通道进行拼接,
stack
表示将帧级特征堆叠为视频特征,表示视频的多尺度平均特征,表示视频的多尺度最大特征,
n
表示不同采样率所得到的视频帧的帧数

[0022]作为优选,多尺度平均特征和多尺度最大特征分别输入两个三维卷积神经网络层,得到第四特征和第五特征,第四特征和第五特征通过相加的方式进行组合并经过
Sigmoid
激活函数层,得到提纯特征,具体操作如下:
[0023][0024][0025][0026][0027]其中,
3D CNN
表示三维卷积神经网络,表示多尺度的通道平均特征,表示多尺度的通道最大特征,
w
表示分配到重点区域的权重,
f
vid
表示提纯特征

[0028]作为优选,视频质量评价模型中,提纯特征输入视频时序特征提取模块提取得到时空维度特征,时空维度特征输入平均池化层,得到视频的质量分数,具体操作如下:
[0029]Q

AvgPooling(VFMNet(f
vid
))

[0030]其中,
VFMNNet( )
表示视频时序特征提取模块,
AvgPooling( )
表示平均池化层

[0031]作为优选,视频时序特征提取模块包括依次连接的四个三维卷积模块

自适应平均池化层和两个全连接层,三维卷积模块包括依次连接的三维卷积神经网络层

批归一化层和
ReLU
激活函数层

[0032]第二方面,本专利技术提供了一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价装置,包括:
[0033]视频帧获取模块,被配置为获取视频中采用随机抽样方式抽取的视频帧;
[0034]模型构建模块,被配置为构建视频质量评价模型并进行训练,得到经训练的视频质量评价模型,视频质量评价模型包括依次连接的特征提取模块

通道注意力模块

视频时序特征提取模块和平均池化层,特征提取模块用于提取视频帧中的多尺度特征,通道注意力模块用于对多尺度特征进行特征加权,视频时序特征提取模块用于进行特征提取得到时空维度特征,并经过平均池化层计算视频对应的质量分数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法,其特征在于,包括以下步骤:获取视频中采用随机抽样方式抽取的视频帧;构建视频质量评价模型并进行训练,得到经训练的视频质量评价模型,所述视频质量评价模型包括依次连接的特征提取模块

通道注意力模块

视频时序特征提取模块和平均池化层,所述特征提取模块用于提取所述视频帧中的多尺度特征,所述通道注意力模块用于对所述多尺度特征进行特征加权,所述视频时序特征提取模块用于进行特征提取得到时空维度特征,并经过所述平均池化层计算视频对应的质量分数,所述通道注意力模块包括自适应平均池化层

自适应最大池化层

两个三维卷积神经网络层和
Sigmoid
激活函数层;将所述视频帧输入所述经训练的视频质量评价模型,得到视频的质量分数
。2.
根据权利要求1所述的基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法,其特征在于,所述特征提取模块采用预训练的
VGG16
模型,将所述视频帧输入所述预训练的
VGG16
模型,从所述预训练的
VGG16
模型的第二层卷积层

第七层卷积层和第十三层卷积层提取第一特征

第二特征和第三特征,公式如下:
f
i2

VGG16(ReLU((Conv2(frame)))

f
i7

VGG16(ReLU((Conv7(frame)))

f
i13

VGG16(ReLU((Conv13(frame)))
;其中,
frame
表示从视频中抽取出来的视频帧,
Conv2、Conv7、Conv13
表示预训练的
VGG16
模型中对应的第二层卷积层

第七层卷积层和第十三层卷积层,
i
表示不同采样率所得到的视频帧的帧数,
f
i2
、f
i7
、f
i13
分别表示第一特征

第二特征和第三特征
。3.
根据权利要求1所述的基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法,其特征在于,所述通道注意力模块中,所述多尺度特征分别输入所述自适应平均池化层和自适应最大池化层,得到多尺度平均特征和多尺度最大特征,所述多尺度平均特征和多尺度最大特征分别输入两个三维卷积神经网络层,得到第四特征和第五特征,所述第四特征和第五特征通过相加的方式进行组合并经过所述
Sigmoid
激活函数层,得到提纯特征
。4.
根据权利要求3所述的基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法,其特征在于,所述多尺度特征分别输入所述自适应平均池化层和自适应最大池化层,得到多尺度平均特征和多尺度最大特征,具体操作如下:到多尺度平均特征和多尺度最大特征,具体操作如下:到多尺度平均特征和多尺度最大特征,具体操作如下:到多尺度平均特征和多尺度最大特征,具体操作如下:其中,
AAP2d()

AMP2d()
分别表示自适应平均池化操作和自适应最大池...

【专利技术属性】
技术研发人员:曾焕强柯雯瑶黄德天施一帆林琦温廷羲
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1