用于评估语音质量的设备和方法技术

技术编号:20628727 阅读:53 留言:0更新日期:2019-03-20 18:16
本发明专利技术涉及一种用于确定音频信号样本的质量分数(MOS)的装置(200)。所述装置(200)包括:提取器(201),用于从所述音频信号样本中提取特征向量,其中所述特征向量包括多个特征值,每个特征值与所述特征向量的不同特征相关联;预处理器(203),用于基于与所述特征值表示的特征相关联的累积分布函数来预处理所述特征向量的特征值,以获得预处理的特征值;处理器(205),用于实现神经网络并基于所述预处理的特征值和与所述累积分布函数相关联的神经网络的神经网络参数集来确定所述音频信号样本的质量分数(MOS)。

Equipment and methods for evaluating voice quality

The invention relates to a device (200) for determining the mass fraction (MOS) of an audio signal sample. The device (200) includes: an extractor (201) for extracting feature vectors from the audio signal sample, wherein the feature vectors include multiple eigenvalues, each of which is associated with different features of the feature vectors, and a preprocessor (203) for preprocessing the eigenvalues of the feature vectors based on the cumulative distribution function associated with the features represented by the feature values. A processor (205) is used to implement a neural network and to determine the mass fraction (MOS) of the audio signal sample based on the characteristic value of the preprocessing and the set of parameters of the neural network associated with the cumulative distribution function.

【技术实现步骤摘要】
【国外来华专利技术】用于评估语音质量的设备和方法
本专利技术大体涉及音频处理领域。更具体地,本专利技术涉及用于基于神经网络和/或机器学习评估音频信号样本的语音质量的设备和方法。
技术介绍
提供电话服务等涉及语音服务的网络运营商,希望确保这类服务的感知质量满足某些语音质量要求。评估语音质量最可靠的方法是所谓的主观评估,其中要求一组受试者收听发送的语音信号并对其质量进行评分,如图1a所示。使用最广泛的听音测试之一是在国际电信联盟(InternationalTelecommunicationUnion,简称ITU-T)建议书P.800中描述的绝对类别评级(absolutecategoryrating,简称ACR)方法。在这项测试中,要求多个受试者使用五分制评价(5分:优,4分:好,3分:中,2分:差,1分:劣)一些被测试系统处理的语音短句的质量。平均评分通常被称为“平均意见值(MeanOpinionScore,简称MOS)”。根据测试结果,网络运营商可以评估其服务的用户体验,并在必要时提高其质量。然而,由于主观语音质量测试一般非常费时费力,因此引入了客观语音质量测试,该测试允许以自动方式评估语音质量,旨在提供估计的MOS值,该MOS值与从主观听音实验获得的MOS高度相关。基本上,在客观语音质量测试中,主观语音质量测试中所需的收听小组被计算算法代替。作为客观语音质量测试的一部分实现的这种计算算法,通常需要基于语音训练样本数据库进行某种预训练,例如,机器学习。通常,已知的客观语音质量测试基于模型,所述模型可以根据以下主要类别进行分类:(i)侵入式模型或非侵入式模型;和(ii)参数模型或波形模型。在侵入式模型中,经处理的通常降级的语音信号和原始参考语音信号都可用于所述客观语音质量测试。然而,通常,例如在实时场景中,只有所述经处理的语音信号可用于所述客观语音质量测试,这称为非侵入式模型。图1b和图1c分别示出了侵入式模型和非侵入式模型的示意图。参数模型的目标是基于特征集的某种分析形式(例如,多项式函数)并使用编解码模式、编码率、丢包率等作为输入来估计语音质量。所述参数模型通常具有低计算复杂度并且广泛用于网络规划。然而,参数模型估计的质量与所述“感知”质量(例如,用户感知的质量)之间通常存在很大差距。与所述参数模型相比,所述波形模型尝试估计基于所述质量的信号处理。更具体地,所述波形模型可以基于一些心理声学原理提取特征向量。因此,所述波形模型的输出在“感知”质量方面大多优于参数模型提供的的输出,但是波形模型的复杂度通常远高于参数模型的复杂度。该领域定义了以下主要行业标准:ITU-TP.863,其基于非侵入式波形模型;ITU-TP.563,其基于非侵入式波形模型;电子模型,其基于参数模型。鉴于上述情况,需要进一步改进用于基于神经网络和/或机器学习评估音频信号样本的语音质量的装置和方法。
技术实现思路
本专利技术的目的在于提供用于基于神经网络和/或机器学习评估音频信号样本的语音质量的改进设备和方法。该目的通过独立权利要求的特征来实现的。结合从属权利要求、说明书和附图,具体实现方式显而易见。如上所述,客观语音质量测试通常需要对其中实现的质量评估算法进行某种预训练,通常基于语音训练样本的数据库。本专利技术基于以下发现:所述训练过程的效率以及所述训练系统提供的结果在很大程度上取决于所述训练样本的特定属性。更具体地,本专利技术基于以下发现:输入和输出之间的平滑关系通常比非平滑关系更易于训练算法学习,特别是依赖于某种形式的梯度下降来调整所述输入输出映射参数的训练算法。本专利技术进一步基于以下发现:对于学习罕见产生的极端特征值的正确映射很难,,例如,所述机器学习算法可能导致人口稀疏区域中发生异常映射,因为所述人口稀疏区域中可用的训练数据很少。因此,根据第一方面,本专利技术涉及一种用于确定音频信号样本的质量分数(MOS)的装置,所述装置包括:提取器、预处理器和处理器。所述提取器用于从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量的不同特征相关联。所述预处理器用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)来预处理所述特征向量的特征值(m),以获得预处理的特征价值(m)。所述处理器用于实现神经网络并基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称CDF)相关联的神经网络的神经网络参数(neuralnetworkparameter,简称PNN)集来确定所述音频信号样本的质量分数(MOS)。因此,提供了一种用于确定音频信号样本的质量分数(MOS)的改进装置。所述音频信号样本可以是帧或多个帧的组合,例如,从语音文件导出的帧或多个帧的组合。在根据第一方面本身的装置的第一种可能实现方式中,所述预处理器用于通过将所述特征的特征值映射到与所述特征关联的累积分布函数(cumulativedistributionfunction,简称CDF)的函数值(例如,CDF值)来预处理所述特征值。例如,可以基于训练的一组特征值或特征向量获得与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。在根据第一方面本身或其第一种实现方式的装置的第二种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称CDF)是均匀分布函数。在根据第一方面本身或其第一或第二种实现方式的装置的第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称CDF)是所述区间[0,1]上的均匀分布函数。换句话说,在第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称CDF)是均匀分布函数,其包括仅在0到1范围内的非零函数值。在根据第一方面本身或其第一至第三种实现方式中的任何一种实现方式的装置的第四种可能实现方式中,所述装置用于在训练阶段期间确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF),或者用于在诸如训练阶段期间确定基于训练的一组(相应的)特征值或特征向量获得的或可获得的与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。在根据第一方面本身或其第一至第四种实现方式中的任何一种实现方式的装置的第五种可能实现方式中,所述处理器用于将所述神经网络实现为用于无监督学习的自动编码器神经网络或用于监督学习的多层感知(multi-layerperception,简称MLP)神经网络等。进一步的实现方式可以用于实现其它监督或非监督神经网络。根据第二方面,本专利技术涉及用于确定音频信号样本的质量分数(MOS)的相应方法,其中所述方法包括以下步骤:从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量的不同特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistr本文档来自技高网
...

【技术保护点】
1.一种用于确定音频信号样本的质量分数(MOS)的装置(200),其特征在于,所述装置(200)包括:提取器(201),用于从所述音频信号样本中提取特征向量(n),其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量的特征相关联;预处理器(203),用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulative distribution function,简称CDF)来预处理所述特征向量的特征值(m),以获得预处理的特征值(m);处理器(205),用于:实现神经网络;基于所述预处理的特征值和与所述累积分布函数(cumulative distribution function,简称CDF)相关联的神经网络参数(neural network parameter,简称PNN)集来确定所述音频信号样本的质量分数(MOS)。

【技术特征摘要】
【国外来华专利技术】1.一种用于确定音频信号样本的质量分数(MOS)的装置(200),其特征在于,所述装置(200)包括:提取器(201),用于从所述音频信号样本中提取特征向量(n),其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量的特征相关联;预处理器(203),用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)来预处理所述特征向量的特征值(m),以获得预处理的特征值(m);处理器(205),用于:实现神经网络;基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称CDF)相关联的神经网络参数(neuralnetworkparameter,简称PNN)集来确定所述音频信号样本的质量分数(MOS)。2.根据权利要求1所述的装置(200),其特征在于,所述预处理器(203)用于通过将所述特征的特征值映射到与所述特征值相关联的累积分布函数(cumulativedistributionfunction,简称CDF)的函数值来预处理所述特征值。3.根据权利要求1或2所述的装置(200),其特征在于,所述累积分布函数(cumulativedistributionfunction,简称CDF)是均匀分布函数。4.根据权利要求1至3中任一项所述的装置(200),其特征在于,所述累积分布函数(cumulativedistributionfunction,简称CDF)是所述区间[0,1]上的均匀分布函数。5.根据权利要求1至4中任一项所述的装置(200),其特征在于,所述装置(200)用于在训练阶段期间确定所述累积分布函数(cumulativedistributionfunction,简称CDF)。6.根据权利要求1至5中任一项所述的装置(200),其特征在于,所述处理器(205)用于将所述神经网络实现为用于无监督学习的自动编码器神经网络或用于监督学习的多层感知(multi-layerperception,简称MLP)神经网络等。7.一种用于确定音频信号样本的质量分数(MOS)的方法(1200),其特征在于,所述方法(1200)包括:从所述音频信号样本中提取(1200)特征向量,其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量的特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)来预处理(1203)所述特征向量的特征值(m),以获得预处理的特征值(m);实现(1205)神经网络;基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称CDF)相关联的神经网络参数(neuralnetworkparameter,简称PNN)集来确定(1207)所述音频信号样本的质量分数(MOS)。8.一种用于确定神经网络参数(neuralnetworkparameter,简称PNN)集来确定音频信号样本的质量分数(MOS)的装置(300),其特征在于,所述装置(300)包括:提取器(301),用于从音频信号样本中提取特征向量(n),其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量(n)的特征相关联;预处理器(303),用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征值(m);处理器(305),用于:实现神经网络;基于所述预处理的特征值确定所述神经网络参数(neuralnetworkparameter,简称PNN)集来确定所述音频信号样本的质量分数(MOS)。9.根据权利要求8所述的装置(300),其特征在于,所述预处理器(303)用于通过将所述特征的特征值映射到与所述特征值相关联的累积分布函数(cumulativedistributionfunction,简称CDF)的函数值来预处理所述特征值。10.根据权利要求8或9所述的装置(300),其特征在于,所述累积分布函数(cumulativedistributionfunction,简称CDF)是均匀分布函数。11.根据权利要求8至10中任一项所述的装置(300),其特征在于,所述累积分布函数(cumulativedistributionfunction,简称CDF)是所述区间[0,1]上的均匀分布函数。12.根据权利要求8至11中任一项所述的装置(300),其特征在于,所述预处理器(303)还用于:基于在多个特征向量上与所述特征相关联的特征值,确定与所述多个(M)特征的特征相关联的特征值的直方图;基于为所述相应特征确定的特征值的直方图来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。13.根据权利要求12所述的装置(300),其特征在于,所述预处理器(303)还用于:通过对所述特征值的直方图的直方图条求和来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。14.根据权利要求8至10中任一项所述的装置(300),其特征在于,所述预处理器(203)还用于:基于在多个特征向量上与所述特征相关联的特征值来确定用于与所述多个(M)特征的特征相关联的特征值的高斯分布(μ,σ);基于为所述相应特征确定的特征值的高斯分布(μ,σ)来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。15.根据权利要求14所述的装置(300),其特征在于,所述预处理器(303)还用于通过将混合高斯分布(μ,σ)用于与所述多个(M)特征的特征相关联的特征值来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)。16.根据权利要求14或15中任一项所述的装置(300),其特征在于,所述预处理器(303)还用于通过使用期望最小化算法来确定用于与所述多个(M)特征的特征相关联的特征值的所述高斯分布(μ,σ)和所述混合高斯分布的参数。17.一种用于确定神经网络参数(neuralnetworkparameter,简称PNN)集来确定音频信号样本的质量分数(MOS)的方法(1300),其特征在于,所述方法(1300)包括:从音频信号样本中提取(1301)特征向量(n),其中所述特征向量包括多个(M)特征值,每个特征值(m)与所述特征向量(n)的特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称CDF)来预处理(1303)所述特征向量(n)的特征值(m),以获得预处理的特征值(m);实现(1305)神经网络;基于所述预处理的特征值确定所述神经网络参数(neuralnetworkparameter,简称PNN)集来确定(1307)所述音频信号样本的质量分数(MOS)。18.一种用于确定神经网络参数(neuralnetworkparameter,简称PNN)集来确...

【专利技术属性】
技术研发人员:肖玮莫娜·哈卡米威廉·巴斯蒂安·柯雷金安
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1