一种基于门控循环神经网络的无参考音视频质量评价方法技术

技术编号：30332125 阅读：18 留言：0更新日期：2021-10-10 00:45

本发明专利技术提供了一种基于门控循环神经网络的无参考音视频质量评价方法，首先通过短时特征提取模块中卷积神经网络提取视频信号和音频信号的短时特征，之后利用长时特征提取模块中门控循环神经网络从视频信号和音频信号的短时特征中学习相邻帧之间的关联性，提取长时特征，最后通过特征融合模块中全连接层将音频信号和视觉信号的长时特征进行融合，得到音视频客观质量评价分数。在短时特征提取时，首先将视频信号按时序依次将单帧图像分割为图像小块、音频信号通过短时傅里叶变换将短音频段转换为二维语谱图，之后利用卷积神经网络从图像小块和二维语谱图提取深层语义特征。本发明专利技术可有效地评价音视频的总体感知体验质量。可有效地评价音视频的总体感知体验质量。可有效地评价音视频的总体感知体验质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于门控循环神经网络的无参考音视频质量评价方法

[0001]本专利技术涉及多模态媒体质量评价
，具体地，涉及一种基于门控循环神经网络的无参考音视频质量评价方法。

技术介绍

[0002]随着互联网和移动智能终端的发展，流媒体的流量迎来了飞速的增长，其中视频流量在全球数据流量占比与日增高，观看视频成为消费者生活中重要的娱乐方式和消息途径。在流媒体系统中，大多数视频信号都伴随着音频信号。同时视觉和听觉是人们从周围世界收集信息的重要途径，绝大部分的外界信息均通过视觉和听觉进入大脑之中。因此，当消费者在享受音视频时，音频信号和视频信号的质量将直接影响着消费者的感知与体验。
[0003]目前流媒体传输系统大致包括音频或视频的采集、压缩、传输和显示等阶段，每个阶段都可能会造成音频或视频信号的失真，从而降低最终用户的体验感知。对于流媒体消费者来说，他们总是希望在更高分辨率和保真度的音视频系统中进行观看和收听，因此，为了保障流媒体消费者的用户体验能维持在一定水平之上，有必要开发设计一种有效的音视频质量评价系统，快速检测音视频质量，当检测到音视频质量不达标时，及时启动音视频的优化与修复，保障最终用户的体验感知。
[0004]根据质量评价主体的不同，质量评价方法又分为主观质量评价和客观质量评价两大类(《Z.Akhtar and T.H.Falk,“Audio
‑
visual multimedia quality assessment:A comprehensive survey,”IEEE Ac...

【技术保护点】

【技术特征摘要】
1.一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，包括：S1：从视频的单帧图像中随机截取多个图像小块，单帧图像并发的短音频段通过短时傅里叶变换，从一维时域波形信号转化为二维语谱图；利用预训练后的二维卷积神经网络分别从单帧图像小块及二维语谱图中提取短时特征即最深层语义特征，通过后处理获得视频信号和音频信号的短时特征；S2：将S1中获得的视频信号和音频信号的短时特征，按时序分别输入门控循环神经网络，学习相邻帧之间的关联性，得到视频信号和音频信号的长时特征；S3：将S2中得到的视频信号和音频信号的长时特征进行融合，得到音视频客观质量评价分数。2.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S1中：按照时序，依次从失真音视频的单帧图像中随机截取若干个分辨率适应神经网络输入的失真图像小块；将离单帧图像最近的一段音频，切割成为失真短音频段，通过短时傅里叶变换将其转换为二维语谱图，其分辨率与预训练后的二维卷积神经网络的输入分辨率大小相同。3.根据权利要求1所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，所述S1中，利用预训练后的神经网络分别从视频图像小块及二维语谱图中提取最深层语义特征，包括：对于每一个视频图像小块以及二维语谱图，均采用同一种神经网络提取短时特征；所述神经网络，利用预训练后的图像卷积神经网络，通过移除神经网络的最后全连接层和池化层，来提取最深层语义特征。4.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，在短时特征提取过程中，对单帧图像进行跳帧操作，即按照时序等时间间隔，选取若干视频帧及并发短音频段，提取短时特征。5.根据权利要求3所述的一种基于门控循环神经网络的无参考音视频质量评价方法，其特征在于，在利用预训练后的神经网络提取最深层语义特征后，通过全局平均池化操作和全局标准差池化操作对最深层语义特征进行信息压缩，以获...

【专利技术属性】
技术研发人员：闵雄阔，曹于勤，孙伟，朱煜程，高艺璇，翟广涛，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人