一种基于门控循环神经网络的无参考音视频质量评价方法技术

技术编号:30332125 阅读:18 留言:0更新日期:2021-10-10 00:45
本发明专利技术提供了一种基于门控循环神经网络的无参考音视频质量评价方法,首先通过短时特征提取模块中卷积神经网络提取视频信号和音频信号的短时特征,之后利用长时特征提取模块中门控循环神经网络从视频信号和音频信号的短时特征中学习相邻帧之间的关联性,提取长时特征,最后通过特征融合模块中全连接层将音频信号和视觉信号的长时特征进行融合,得到音视频客观质量评价分数。在短时特征提取时,首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图,之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。本发明专利技术可有效地评价音视频的总体感知体验质量。可有效地评价音视频的总体感知体验质量。可有效地评价音视频的总体感知体验质量。

【技术实现步骤摘要】
一种基于门控循环神经网络的无参考音视频质量评价方法


[0001]本专利技术涉及多模态媒体质量评价
,具体地,涉及一种基于门控循环神经网络的无参考音视频质量评价方法。

技术介绍

[0002]随着互联网和移动智能终端的发展,流媒体的流量迎来了飞速的增长,其中视频流量在全球数据流量占比与日增高,观看视频成为消费者生活中重要的娱乐方式和消息途径。在流媒体系统中,大多数视频信号都伴随着音频信号。同时视觉和听觉是人们从周围世界收集信息的重要途径,绝大部分的外界信息均通过视觉和听觉进入大脑之中。因此,当消费者在享受音视频时,音频信号和视频信号的质量将直接影响着消费者的感知与体验。
[0003]目前流媒体传输系统大致包括音频或视频的采集、压缩、传输和显示等阶段,每个阶段都可能会造成音频或视频信号的失真,从而降低最终用户的体验感知。对于流媒体消费者来说,他们总是希望在更高分辨率和保真度的音视频系统中进行观看和收听,因此,为了保障流媒体消费者的用户体验能维持在一定水平之上,有必要开发设计一种有效的音视频质量评价系统,快速检测音视频质量,当检测到音视频质量不达标时,及时启动音视频的优化与修复,保障最终用户的体验感知。
[0004]根据质量评价主体的不同,质量评价方法又分为主观质量评价和客观质量评价两大类(《Z.Akhtar and T.H.Falk,“Audio

visual multimedia quality assessment:A comprehensive survey,”IEEE Access,vol.5,pp.21090

21117,2017》)。主观质量评价虽然准确性高,但其耗时耗力,并且成本较高,无法用于大规模的视听信号评估和实时处理系统中。因此,在过去的几十年间,研究者们提出了大量的客观质量评价算法,但大部分方法聚焦于模态信号,即图像、视频及音频。较少研究者研究多模态客观质量评价,如音视频客观质量评价。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual

based quality assessment for audio

visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482

501,2010.》中给出了音视频质量评价的综述。
[0005]由于关于人类感知理解的研究目前较少,针对听觉和视觉的感知过程尚未有明确解释,研究者无法确定感知过程中视觉和听觉信息的融合是如何进行的,部分研究提出听觉和视觉通道可能在人类感知形成的后期阶段被整合。因此,目前大多数研究者采用后期融合理论,即先分别处理听觉和视觉通道后,产生各通道的质量值,最后在后期整合,得到最终单一的感知质量。上述大部分研究成果集中于全参考音视频质量评价,而无参考音视频质量评价缺乏深入研究,由于无需参考音视频的任何信息,因此更难设计,但更容易适用于实时检测系统中。
[0006]并且目前音视频质量评价研究成果中,大部分研究者采用线性组合进行后期融合,少部分研究者引进浅层机器学习,例如支持向量机,较少研究者将深度机器学习应用到音视频质量评价方法中。由于音视频作为长时间有序序列,其相邻帧之间具有必然的关联
性和联系性。有序序列中的长期依赖性,通过人类的记忆机制,影响着人类最终主观感知质量。目前大部分音视频客观质量评价方法中所用的音频和视频质量指标,均是通过评价依次单独单帧的质量分数后求均值所得,因此只是提取了音视频中单个帧所对应的短时特征,忽略了音视频有序序列中的长时特征对音视频整体质量的影响。后期融合中简单的线性组合和浅层机器学习也无法有效提取音视频有序序列的长时特征。

技术实现思路

[0007]为了弥补现有技术中上述的不足之处,本专利技术的目的是提供一种基于门控循环神经网络的无参考音视频质量评价方法、系统及终端。
[0008]本专利技术的第一目的,提供一种基于门控循环神经网络的无参考音视频质量评价方法,包括:
[0009]S1:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;
[0010]S2:将S1中获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;
[0011]S3:将S2中得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。
[0012]优选地,所述S1中,按照时序,依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块。
[0013]优选地,所述S1中,将离单帧图像最近的一段音频,切割成为失真短音频段,通过短时傅里叶变换将其转换为二维语谱图,其分辨率与预训练后的神经网络的输入分辨率大小相同。
[0014]优选地,所述S2中,利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征,包括:
[0015]对于每一个视频图像小块以及二维语谱图,均采用同一种神经网络提取短时特征;
[0016]所述神经网络,利用预训练后的图像卷积神经网络,通过移除神经网络的最后全连接层和池化层,来提取最深层语义特征。
[0017]优选地,在短时特征提取过程中,对单帧图像进行跳帧操作,即按照时序等时间间隔,选取若干视频帧及并发短音频段,提取短时特征。
[0018]优选地,在短时特征提取过程中,首先利用预训练后的神经网络提取最深层语义特征后,通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩,以获取特征变化信息。
[0019]优选地,所述S2中,后处理操作为:
[0020]对于从图像小块中提取的短时特征,对单帧图像对应的所有图像小块的短时特征计算平均值,作为失真音视频中该帧图像的短时特征;
[0021]将单帧图像和短音频段的短时特征,按时序排列,获得视频信号和音频信号的短
时特征。
[0022]优选地,所述S3中,得到视频信号和音频信号的短时特征后,经过全连接层降维后,分别按时序输入门控循环神经网络,得到视频信号和音频信号的长时特征。
[0023]优选地,所述S4中,将视频帧和并发短音频段的长时特征进行融合,包括:
[0024]将视频信号和音频信号的长时特征,输入由三层全连接层组成神经网络,融合视频信号和音频信号的长时特征,输出音视频的客观质量评价分数。
[0025]本专利技术的第二目的,提供一种基于门控循环神经网络的无参考音视频质量评价系统,包括:
[0026]短时特征提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,包括:S1:从视频的单帧图像中随机截取多个图像小块,单帧图像并发的短音频段通过短时傅里叶变换,从一维时域波形信号转化为二维语谱图;利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征,通过后处理获得视频信号和音频信号的短时特征;S2:将S1中获得的视频信号和音频信号的短时特征,按时序分别输入门控循环神经网络,学习相邻帧之间的关联性,得到视频信号和音频信号的长时特征;S3:将S2中得到的视频信号和音频信号的长时特征进行融合,得到音视频客观质量评价分数。2.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,所述S1中:按照时序,依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块;将离单帧图像最近的一段音频,切割成为失真短音频段,通过短时傅里叶变换将其转换为二维语谱图,其分辨率与预训练后的二维卷积神经网络的输入分辨率大小相同。3.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,所述S1中,利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征,包括:对于每一个视频图像小块以及二维语谱图,均采用同一种神经网络提取短时特征;所述神经网络,利用预训练后的图像卷积神经网络,通过移除神经网络的最后全连接层和池化层,来提取最深层语义特征。4.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,在短时特征提取过程中,对单帧图像进行跳帧操作,即按照时序等时间间隔,选取若干视频帧及并发短音频段,提取短时特征。5.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法,其特征在于,在利用预训练后的神经网络提取最深层语义特征后,通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩,以获...

【专利技术属性】
技术研发人员:闵雄阔曹于勤孙伟朱煜程高艺璇翟广涛
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1