基于卷积神经网络的鲁棒侵入式感知音频质量评估制造技术

技术编号:39303515 阅读:11 留言:0更新日期:2023-11-12 15:53
本文描述了一种用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统。该系统包括至少一个奠基块,被配置为接收输入音频帧的至少一种表示并将输入音频帧的至少一种表示映射到特征图;至少一个全连接层,被配置为从至少一个奠基块接收对应于输入音频帧的至少一种表示的特征图,其中至少一个全连接层被配置为确定输入音频帧的音频质量的指示。进一步描述了操作和训练所述系统的相应方法。应方法。应方法。

【技术实现步骤摘要】
【国外来华专利技术】基于卷积神经网络的鲁棒侵入式感知音频质量评估
[0001]相关申请的交叉引用
[0002]本申请要求以下优先权申请的优先权:2020年11月30日提交的美国临时申请63/119,318(参考号:D20118USP1)。


[0003]本公开总体上涉及用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统。特别地,该系统包括至少一个奠基块和至少一个全连接层。本公开进一步涉及操作用于确定单声道音频信号或立体声音频信号的输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统的相应方法,以及训练所述系统的相应方法。

技术介绍

[0004]人类感知的音频质量是许多音频和多媒体网络和设备的核心性能指标,例如互联网协议语音(VoIP)、数字音频广播(DAB)系统和流媒体服务。从服务器到远程客户端的音频文件的稳定、连续和快速传输受到许多技术约束,例如带宽受限、网络拥塞或客户端设备过载,的限制。音频编解码器是被设计为对数字音频流进行编码和解码的计算机程序。更准确地说,它借助编解码器算法将数字音频数据压缩为压缩格式以及从压缩格式解压缩得到数字音频数据。音频编解码器旨在减少存储空间和带宽,同时保持广播或传输信号的高保真度。由于有损压缩方法,音频质量在某种程度上可能明显较差并影响用户体验。为了真实反映人类感知的音频质量,由一组受过训练的听众评定的音频选段的听力测试被执行,并且得出的平均得分代表相应音频选段的质量。然而,海量音频文件的听力测试是不可能进行的,因为这是一项繁琐的工作,并且需要更有经验的人力参与执行重复性工作。
[0005]工程师寻求算法和技术来避免繁重的听力测试工作量。音频质量评价方法大致可分为客观方法和主观方法。主观方法通常是指听力测试,而客观评价是机器和设备的数值测量,是听力测试的计算代理。诸如音频质量感知评估(PEAQ)、感知客观语音质量分析(POLQA)和虚拟语音质量客观收听器(ViSQOL)的典型客观音频质量评估方法是是为特定声音编解码器(即语音或音频编解码器)和/或特定的比特率操作点设计的。这些客观方法都有一个共同的问题,即它们会因为新场景的出现而过时。例如,服务提供商不断更新其编解码器以优化编码和解码过程。在这些情况下,需要通过执行主观或客观测试来频繁验证编解码器更改。然而,大规模的听力测试是不切实际的,对目标特定编解码器或比特率的客观评价可能超出了他们的能力范围。深度学习方法提供了一种新的视角来推导出音频质量评估模型,该模型准确、可快速重新训练、并且可轻松扩展到新场景和应用。

技术实现思路

[0006]根据本公开的第一方面,提供了一种用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统。该系统可包括至少一个奠基块,被配置为接收输入音频帧的至少一种表示并将所述输入音频帧的至少一种表示映射到特征图。并且该系统可包括
至少一个全连接层,被配置为从所述至少一个奠基块接收对应于所述输入音频帧的至少一种表示的特征图,其中所述至少一个全连接层被配置为确定输入音频帧的音频质量的指示。该至少一个奠基块可包括卷积层的多个并行路径,其中至少一个并行路径包括具有大小为m
×
n的内核的卷积层,其中整数m不同于整数n。
[0007]在一些实施例中,输入音频帧的至少一种表示可对应于具有表示时间的第一轴和表示频率的第二轴的伽马通频谱图。
[0008]在一些实施例中,卷积层的多个并行路径可包括具有水平内核的至少一个卷积层和具有垂直内核的至少一个卷积层。
[0009]在一些实施例中,水平内核可以是大小为m
×
n的内核,其中m>n,从而水平内核可被配置为探测输入音频帧的时间依赖性。
[0010]在一些实施例中,垂直内核可以是大小为m
×
n的内核,其中m<n,从而垂直内核可被配置为探测输入音频帧的音色依赖性。
[0011]在一些实施例中,至少一个奠基块还可包括具有池化层的路径。
[0012]在一些实施例中,池化层可包括平均池化。
[0013]在一些实施例中,该系统还可包括至少一个挤压激励SE层。
[0014]在一些实施例中,挤压激励层可在至少一个奠基块的卷积层的多个平行路径中的最后一个卷积层之后。
[0015]在一些实施例中,挤压激励层可包括卷积层、两个全连接层、和S型激活函数。
[0016]在一些实施例中,在挤压激励层中,卷积层之后可以是通过两个全连接层的缩放操作,对于至少一个奠基块输出的特征图的每个声道生成相应的注意力权重,并将所述注意力权重应用于特征图的声道并执行加权声道的拼接。
[0017]在一些实施例中,该系统可包括两个或多个奠基块和两个或多个挤压激励层,并且奠基块与挤压激励层可交替排列。
[0018]在一些实施例中,输入音频帧可源自单声道音频信号,并且输入音频帧的至少一种表示可包括干净参考输入音频帧的表示和劣化输入音频帧的表示。
[0019]在一些实施例中,输入音频帧可源自包括左声道和右声道的立体声音频信号,并且,对于中央声道,侧声道,左声道和右声道中的每一者,输入音频帧的至少一种表示可包括干净参考输入音频帧的表示和劣化输入音频帧的表示,中央声道和侧声道对应于左声道和右声道的之和与之差。
[0020]在一些实施例中,音频质量的指示可包括平均意见得分MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。
[0021]在一些实施例中,至少一个全连接层可包括前馈神经网络。
[0022]根据本公开的第二方面,提供了一种操作计算机实现的基于深度学习的系统以确定单声道音频信号的输入音频帧的音频质量的指示的方法,其中该系统包括至少一个奠基块和至少一个全连接层,该方法可包括以下步骤:通过至少一个奠基块接收单声道音频信号的输入音频帧的至少一种表示,包括单声道音频信号的干净参考输入音频帧的表示和单声道音频信号的劣化输入音频帧的表示。该方法还可包括以下步骤:通过至少一个奠基块将所述输入音频帧的至少一种表示映射到特征图。该方法还可包括以下步骤:通过至少一个全连接层基于所述特征图预测输入音频帧的音频质量的指示。
[0023]在一些实施例中,音频质量的指示可包括平均意见得分MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。
[0024]在一些实施例中,系统还可包括在奠基块之后的至少一个挤压激励层,并且所述方法还可包括通过挤压激励层将各注意力权重应用于至少一个奠基块输出的特征图的声道。
[0025]在一些实施例中,至少一个奠基块可包括多个并行路径的卷积层,并且其中,至少一个并行路径可包括具有m
×
n大小的内核的卷积层,其中整数m与整数n不同。
[0026]根据本公开的第三方面,提供了一种操作计算机实现的基于深度学习的系统以确定立体声音频信号的输入音频帧的音频质量的指示的方法,其中该系统包括至少一个奠基块和至少一个全连接层。该方法可包括以下步骤:通过至少一个奠基块接收输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于确定输入音频帧的音频质量的指示的计算机实现的基于深度学习的系统,该系统包括:至少一个奠基块,被配置为接收输入音频帧的至少一种表示并将所述输入音频帧的至少一种表示映射到特征图;至少一个全连接层,被配置为从所述至少一个奠基块接收对应于所述输入音频帧的至少一种表示的特征图,其中所述至少一个全连接层被配置为确定输入音频帧的音频质量的指示;其中,所述至少一个奠基块包括:卷积层的多个并行路径,其中至少一个并行路径包括具有大小为m
×
n的内核的卷积层,其中整数m不同于整数n。2.如权利要求1所述的系统,其中,输入音频帧的至少一种表示对应于具有表示时间的第一轴和表示频率的第二轴的伽马通频谱图。3.如权利要求1或2所述的系统,其中,卷积层的多个并行路径包括具有水平内核的至少一个卷积层和具有垂直内核的至少一个卷积层。4.如从属于权利要求2的权利要求3所述的系统,其中,所述水平内核是大小为m
×
n的内核,其中m>n,从而水平内核被配置为探测输入音频帧的时间依赖性。5.如从属于权利要求2的权利要求3或4所述的系统,其中,所述垂直内核是大小为m
×
n的内核,其中m<n,从而垂直内核被配置为探测输入音频帧的音色依赖性。6.如权利要求1至5中任一项所述的系统,其中,所述至少一个奠基块还包括具有池化层的路径。7.如权利要求6所述的系统,其中,所述池化层包括平均池化。8.如权利要求1至7中任一项所述的系统,其中,该系统还包括至少一个挤压激励SE层。9.如权利要求8所述的系统,其中,所述挤压激励层在所述至少一个奠基块的卷积层的多个平行路径中的最后一个卷积层之后。10.如权利要求8或9所述的系统,其中,所述挤压激励层包括卷积层、两个全连接层、和S型激活函数。11.如权利要求10所述的系统,其中,在挤压激励层中,卷积层之后是通过两个全连接层的缩放操作,对于至少一个奠基块输出的特征图的每个声道生成相应的注意力权重,并将所述注意力权重应用于特征图的声道并执行加权声道的拼接。12.如权利要求1至11中任一项所述的系统,其中,所述系统包括两个或多个奠基块和两个或多个挤压激励层,并且其中,奠基块与挤压激励层交替排列。13.如权利要求1至12中任一项所述的系统,其中,输入音频帧源自单声道音频信号,并且其中,所述输入音频帧的至少一种表示包括干净参考输入音频帧的表示和劣化输入音频帧的表示。14.如权利要求1至12中任一项所述的系统,其中,输入音频帧源自包括左声道和右声道的立体声音频信号,并且其中,对于中央声道,侧声道,左声道和右声道中的每一者,输入音频帧的至少一种表示包括干净参考输入音频帧的表示和劣化输入音频帧的表示,中央声道和侧声道对应于左声道和右声道的之和与之差。15.如权利要求1至14中任一项所述的系统,其中,音频质量的指示包括平均意见得分
MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。16.如权利要求1至15中任一项所述的系统,其中,所述至少一个全连接层包括前馈神经网络。17.一种操作计算机实现的基于深度学习的系统以确定单声道音频信号的输入音频帧的音频质量的指示的方法,其中该系统包括至少一个奠基块和至少一个全连接层,该方法包括以下步骤:通过至少一个奠基块接收单声道音频信号的输入音频帧的至少一种表示,包括单声道音频信号的干净参考输入音频帧的表示和单声道音频信号的劣化输入音频帧的表示;通过至少一个奠基块将所述输入音频帧的至少一种表示映射到特征图;以及通过至少一个全连接层基于所述特征图预测输入音频帧的音频质量的指示。18.如权利要求17所述的方法,其中,音频质量的指示包括平均意见得分MOS以及隐藏参考和锚点的多重刺激MUSHRA中的至少一者。19.如权利要求17或18所述的方法,其中,所述系统还包括在奠基块之后的至少一个挤压激励层,并...

【专利技术属性】
技术研发人员:A
申请(专利权)人:杜比国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1