基于卷积神经网络的鲁棒侵入式感知音频质量评估制造技术

技术编号：39303515 阅读：11 留言：0更新日期：2023-11-12 15:53

本文描述了一种用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统。该系统包括至少一个奠基块，被配置为接收输入音频帧的至少一种表示并将输入音频帧的至少一种表示映射到特征图；至少一个全连接层，被配置为从至少一个奠基块接收对应于输入音频帧的至少一种表示的特征图，其中至少一个全连接层被配置为确定输入音频帧的音频质量的指示。进一步描述了操作和训练所述系统的相应方法。应方法。应方法。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于卷积神经网络的鲁棒侵入式感知音频质量评估
[0001]相关申请的交叉引用
[0002]本申请要求以下优先权申请的优先权：2020年11月30日提交的美国临时申请63/119,318(参考号：D20118USP1)。

[0003]本公开总体上涉及用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统。特别地，该系统包括至少一个奠基块和至少一个全连接层。本公开进一步涉及操作用于确定单声道音频信号或立体声音频信号的输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统的相应方法，以及训练所述系统的相应方法。

技术介绍

[0004]人类感知的音频质量是许多音频和多媒体网络和设备的核心性能指标，例如互联网协议语音(VoIP)、数字音频广播(DAB)系统和流媒体服务。从服务器到远程客户端的音频文件的稳定、连续和快速传输受到许多技术约束，例如带宽受限、网络拥塞或客户端设备过载，的限制。音频编解码器是被设计为对数字音频流进行编码和解码的计算机程序。更准确地说，它借助编解码器算法将数字音频数据压缩为压缩格式以及从压缩格式解压缩得到数字音频数据。音频编解码器旨在减少存储空间和带宽，同时保持广播或传输信号的高保真度。由于有损压缩方法，音频质量在某种程度上可能明显较差并影响用户体验。为了真实反映人类感知的音频质量，由一组受过训练的听众评定的音频选段的听力测试被执行，并且得出的平均得分代表相应音频选段的质量。然而，海量音频文件的听力测试是不可能进行的，因为这是一项繁琐的工作，并且需要更有经验的人力参与执行重...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统，该系统包括：至少一个奠基块，被配置为接收输入音频帧的至少一种表示并将所述输入音频帧的至少一种表示映射到特征图；至少一个全连接层，被配置为从所述至少一个奠基块接收对应于所述输入音频帧的至少一种表示的特征图，其中所述至少一个全连接层被配置为确定输入音频帧的音频质量的指示；其中，所述至少一个奠基块包括：卷积层的多个并行路径，其中至少一个并行路径包括具有大小为m
×
n的内核的卷积层，其中整数m不同于整数n。2.如权利要求1所述的系统，其中，输入音频帧的至少一种表示对应于具有表示时间的第一轴和表示频率的第二轴的伽马通频谱图。3.如权利要求1或2所述的系统，其中，卷积层的多个并行路径包括具有水平内核的至少一个卷积层和具有垂直内核的至少一个卷积层。4.如从属于权利要求2的权利要求3所述的系统，其中，所述水平内核是大小为m
×
n的内核，其中m＞n，从而水平内核被配置为探测输入音频帧的时间依赖性。5.如从属于权利要求2的权利要求3或4所述的系统，其中，所述垂直内核是大小为m
×
n的内核，其中m<n，从而垂直内核被配置为探测输入音频帧的音色依赖性。6.如权利要求1至5中任一项所述的系统，其中，所述至少一个奠基块还包括具有池化层的路径。7.如权利要求6所述的系统，其中，所述池化层包括平均池化。8.如权利要求1至7中任一项所述的系统，其中，该系统还包括至少一个挤压激励SE层。9.如权利要求8所述的系统，其中，所述挤压激励层在所述至少一个奠基块的卷积层的多个平行路径中的最后一个卷积层之后。10.如权利要求8或9所述的系统，其中，所述挤压激励层包括卷积层、两个全连接层、和S型激活函数。11.如权利要求10所述的系统，其中，在挤压激励层中，卷积层之后是通过两个全连接层的缩放操作，对于至少一个奠基块输出的特征图的每个声道生成相应的注意力权重，并将所述注意力权重应用于特征图的声道并执行加权声道的拼接。12.如权利要求1至11中任一项所述的系统，其中，所述系统包括两个或多个奠基块和两个或多个挤压激励层，并且其中，奠基块与挤压激励层交替排列。13.如权利要求1至12中任一项所述的系统，其中，输入音频帧源自单声道音频信号，并且其中，所述输入音频帧的至少一种表示包括干净参考输入音频帧的表示和劣化输入音频帧的表示。14.如权利要求1至12中任一项所述的系统，其中，输入音频帧源自包括左声道和右声道的立体声音频信号，并且其中，对于中央声道,侧声道,左声道和右声道中的每一者，输入音频帧的至少一种表示包括干净参考输入音频帧的表示和劣化输入音频帧的表示，中央声道和侧声道对应于左声道和右声道的之和与之差。15.如权利要求1至14中任一项所述的系统，其中，音频质量的指示包括平均意见得分
MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。16.如权利要求1至15中任一项所述的系统，其中，所述至少一个全连接层包括前馈神经网络。17.一种操作计算机实现的基于深度学习的系统以确定单声道音频信号的输入音频帧的音频质量的指示的方法，其中该系统包括至少一个奠基块和至少一个全连接层，该方法包括以下步骤：通过至少一个奠基块接收单声道音频信号的输入音频帧的至少一种表示，包括单声道音频信号的干净参考输入音频帧的表示和单声道音频信号的劣化输入音频帧的表示；通过至少一个奠基块将所述输入音频帧的至少一种表示映射到特征图；以及通过至少一个全连接层基于所述特征图预测输入音频帧的音频质量的指示。18.如权利要求17所述的方法，其中，音频质量的指示包括平均意见得分MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。19.如权利要求17或18所述的方法，其中，所述系统还包括在奠基块之后的至少一个挤压激励层，并...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：杜比国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人