【技术实现步骤摘要】
一种基于新型时序特征关系映射的视频质量评价方法
[0001]本专利技术属于计算机视觉领域,具体涉及一种基于新型时序特征关系映射的视频质量评价方法。
技术背景
[0002]近年来,移动通信技术迅速发展,数字设备(如手机、平板电脑)爆炸性增长。视频作为内容传播的主要形式,覆盖了消费、医疗、教育等诸多领域,在互联网数据中占据了80%以上的比重。但视频在采集、压缩、传输、存储或者播放等环节难以避免地会出现失真和降质,影响受众的观看体验甚至对视频语义的理解。为了实现对视频流量的有效处理,并指导后续处理,如进一步压缩,增强,做好带宽和视频质量之间的权衡,设计合理可靠的视频质量评价(Video Quality Assessment,VQA)方法,成为计算机视觉领域的研究热点。
[0003]视频质量评价方法可大致划分为两大类:主观评价和客观评价。依赖于对失真视频进行人工评价的主观指标是最可靠的,该研究中收集的测试对象意见分数的平均值称为平均意见分数(MOS)。然而,利用主观质量评价方法建立大规模数据集时,导致大量的资源(人力、物力等)被消耗。同时,主观评价方法也无法满足一些实际应用中进行视频质量的实时评价的需求,如直播网站中的视频质量实时监控。因此,对于具有重大实际应用价值、资源消耗较少的的视频质量客观评价方法的研究显得尤为重要。其中,无参考质量评价模型(NR
‑
VQA)只需要利用失真视频对客观模型进行训练和评估,具有更高的灵活性和实时性,近年来得到了持续的关注与研究。
[0004]由于缺少原始参考 ...
【技术保护点】
【技术特征摘要】
1.一种基于新型时序特征关系映射的视频质量评价方法,其特征在于包括如下步骤:步骤1.提取内容感知特征;步骤2.时序特征融合:步骤3.质量回归,步骤4.质量池化;步骤5.将内容感知特性提取网络、时序特征融合模块、质量回归模块、质量池化模型进行联合训练。2.根据权利要求1所述的一种基于新型时序特征关系映射的视频质量评价方法,其特征在于步骤1具体实现如下:利用预训练的卷积神经网络作为内容感知特征提取网络,所述的内容感知特征提取网络包括一个预训练好的ResNet
‑
50模型、一个空间全局平均池化层和一个全局标准差池化层;1
‑
1.获取内容感知特征提取网络的输入,以一个视频的所有帧作为卷积神经网络ResNet
‑
50的输入,提取每帧视频的特征,并输出N个特征图M
t
,具体如下:M
t
=CNN(I
t
)
ꢀꢀꢀꢀꢀ
(1)其中,t是下标,t=1,2,3,...N,N为视频的总帧数;I
t
表示视频第t帧的图像;M
t
表示视频第t帧所对应的特征图;1
‑
2.利用空间池化操作保留更多有效信息:具体来说是利用全局平均池化操作来去掉不同帧之间的冗余信息,利用全局标准差池化操作来保存不同帧之间的变化信息,分别得到特征向量和最终通过将特征向量和聚合形成内容感知特征f
t
,具体计算如下:计算如下:计算如下:其中,GP
mean
()表示空间全局池化操作,GP
std
()表示全局标准层操作,和分别是经过全局池化和全局平均差操作得到的特征向量,表示将两个向量连接起来,f
t
表示提取到单帧视频的最终内容感知特征。3.根据权利要求2所述的一种基于新型时序特征关系映射的视频质量评价方法,其特征在于步骤2具体实现如下:将提取到的帧级别的内容感知特征f
t
接入双向长短期记忆神经网络中,再利用该网络的输出特征,以连续五帧视频特征为一个分组,构建一个全新的融合视频当前帧、前两帧以及后两帧特征的映射。4.根据权利要求3所述的一种基于新型时序特征关系映射的视频质量评价方法,其特征在于新的特征映射图具体实现如下:2
‑
1.先将提取到的单个内容感知特征f
t
接入一个全连接层,进行降维,得到新的特征向量X
t
,具体如下:X
t
=W
fx
f
t
+b
fx
ꢀꢀꢀꢀꢀ
(5)
其中,b
fx
、W
fx
分别表示单个全连接层中的参数偏差和权重,f
t
表示提取到单帧视频的最终内容感知特征;2
‑
2.将得到的帧级别的特征向量X
t
接入Bi
‑
LSTM网络,捕捉视频序列上下文信息的内容感知特征与帧级质量的长期依赖关系;单层网络单元的隐含尺寸设为128,卷积核为1
×1×
128,双向长短期网络的隐含状态初始值设为H0,根据当前时刻的输入特征向量X
t
和前一时刻网络的隐含状态H
(t
‑
1)
计算当前时刻双向长短期网络的隐含状态H
t
;具体如下:;具体如下:其中,X
t
表示视频帧级别的特征向量,A和A'是Bi
...
【专利技术属性】
技术研发人员:毛钰,郑博仑,颜成钢,孙垚棋,高宇涵,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。