用于评估语音质量的设备和方法技术

技术编号：20628727 阅读：53 留言：0更新日期：2019-03-20 18:16

本发明专利技术涉及一种用于确定音频信号样本的质量分数(MOS)的装置(200)。所述装置(200)包括：提取器(201)，用于从所述音频信号样本中提取特征向量，其中所述特征向量包括多个特征值，每个特征值与所述特征向量的不同特征相关联；预处理器(203)，用于基于与所述特征值表示的特征相关联的累积分布函数来预处理所述特征向量的特征值，以获得预处理的特征值；处理器(205)，用于实现神经网络并基于所述预处理的特征值和与所述累积分布函数相关联的神经网络的神经网络参数集来确定所述音频信号样本的质量分数(MOS)。

Equipment and methods for evaluating voice quality

The invention relates to a device (200) for determining the mass fraction (MOS) of an audio signal sample. The device (200) includes: an extractor (201) for extracting feature vectors from the audio signal sample, wherein the feature vectors include multiple eigenvalues, each of which is associated with different features of the feature vectors, and a preprocessor (203) for preprocessing the eigenvalues of the feature vectors based on the cumulative distribution function associated with the features represented by the feature values. A processor (205) is used to implement a neural network and to determine the mass fraction (MOS) of the audio signal sample based on the characteristic value of the preprocessing and the set of parameters of the neural network associated with the cumulative distribution function.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于评估语音质量的设备和方法
本专利技术大体涉及音频处理领域。更具体地，本专利技术涉及用于基于神经网络和/或机器学习评估音频信号样本的语音质量的设备和方法。
技术介绍
提供电话服务等涉及语音服务的网络运营商，希望确保这类服务的感知质量满足某些语音质量要求。评估语音质量最可靠的方法是所谓的主观评估，其中要求一组受试者收听发送的语音信号并对其质量进行评分，如图1a所示。使用最广泛的听音测试之一是在国际电信联盟(InternationalTelecommunicationUnion，简称ITU-T)建议书P.800中描述的绝对类别评级(absolutecategoryrating，简称ACR)方法。在这项测试中，要求多个受试者使用五分制评价(5分：优，4分：好，3分：中，2分：差，1分：劣)一些被测试系统处理的语音短句的质量。平均评分通常被称为“平均意见值(MeanOpinionScore，简称MOS)”。根据测试结果，网络运营商可以评估其服务的用户体验，并在必要时提高其质量。然而，由于主观语音质量测试一般非常费时费力，因此引入了客观语音质量测试，该测试允许以自动方式评估语音质量，旨在提供估计的MOS值，该MOS值与从主观听音实验获得的MOS高度相关。基本上，在客观语音质量测试中，主观语音质量测试中所需的收听小组被计算算法代替。作为客观语音质量测试的一部分实现的这种计算算法，通常需要基于语音训练样本数据库进行某种预训练，例如，机器学习。通常，已知的客观语音质量测试基于模型，所述模型可以根据以下主要类别进行分类：(i)侵入式模型或非侵入式模型；和(ii)参数模型或...

【技术保护点】
1.一种用于确定音频信号样本的质量分数(MOS)的装置(200)，其特征在于，所述装置(200)包括：提取器(201)，用于从所述音频信号样本中提取特征向量(n)，其中所述特征向量包括多个(M)特征值，每个特征值(m)与所述特征向量的特征相关联；预处理器(203)，用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulative distribution function，简称CDF)来预处理所述特征向量的特征值(m)，以获得预处理的特征值(m)；处理器(205)，用于：实现神经网络；基于所述预处理的特征值和与所述累积分布函数(cumulative distribution function，简称CDF)相关联的神经网络参数(neural network parameter，简称PNN)集来确定所述音频信号样本的质量分数(MOS)。

【技术特征摘要】
【国外来华专利技术】1.一种用于确定音频信号样本的质量分数(MOS)的装置(200)，其特征在于，所述装置(200)包括：提取器(201)，用于从所述音频信号样本中提取特征向量(n)，其中所述特征向量包括多个(M)特征值，每个特征值(m)与所述特征向量的特征相关联；预处理器(203)，用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)来预处理所述特征向量的特征值(m)，以获得预处理的特征值(m)；处理器(205)，用于：实现神经网络；基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction，简称CDF)相关联的神经网络参数(neuralnetworkparameter，简称PNN)集来确定所述音频信号样本的质量分数(MOS)。2.根据权利要求1所述的装置(200)，其特征在于，所述预处理器(203)用于通过将所述特征的特征值映射到与所述特征值相关联的累积分布函数(cumulativedistributionfunction，简称CDF)的函数值来预处理所述特征值。3.根据权利要求1或2所述的装置(200)，其特征在于，所述累积分布函数(cumulativedistributionfunction，简称CDF)是均匀分布函数。4.根据权利要求1至3中任一项所述的装置(200)，其特征在于，所述累积分布函数(cumulativedistributionfunction，简称CDF)是所述区间[0，1]上的均匀分布函数。5.根据权利要求1至4中任一项所述的装置(200)，其特征在于，所述装置(200)用于在训练阶段期间确定所述累积分布函数(cumulativedistributionfunction，简称CDF)。6.根据权利要求1至5中任一项所述的装置(200)，其特征在于，所述处理器(205)用于将所述神经网络实现为用于无监督学习的自动编码器神经网络或用于监督学习的多层感知(multi-layerperception，简称MLP)神经网络等。7.一种用于确定音频信号样本的质量分数(MOS)的方法(1200)，其特征在于，所述方法(1200)包括：从所述音频信号样本中提取(1200)特征向量，其中所述特征向量包括多个(M)特征值，每个特征值(m)与所述特征向量的特征相关联；基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)来预处理(1203)所述特征向量的特征值(m)，以获得预处理的特征值(m)；实现(1205)神经网络；基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction，简称CDF)相关联的神经网络参数(neuralnetworkparameter，简称PNN)集来确定(1207)所述音频信号样本的质量分数(MOS)。8.一种用于确定神经网络参数(neuralnetworkparameter，简称PNN)集来确定音频信号样本的质量分数(MOS)的装置(300)，其特征在于，所述装置(300)包括：提取器(301)，用于从音频信号样本中提取特征向量(n)，其中所述特征向量包括多个(M)特征值，每个特征值(m)与所述特征向量(n)的特征相关联；预处理器(303)，用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)来预处理所述特征向量(n)的特征值(m)，以获得预处理的特征值(m)；处理器(305)，用于：实现神经网络；基于所述预处理的特征值确定所述神经网络参数(neuralnetworkparameter，简称PNN)集来确定所述音频信号样本的质量分数(MOS)。9.根据权利要求8所述的装置(300)，其特征在于，所述预处理器(303)用于通过将所述特征的特征值映射到与所述特征值相关联的累积分布函数(cumulativedistributionfunction，简称CDF)的函数值来预处理所述特征值。10.根据权利要求8或9所述的装置(300)，其特征在于，所述累积分布函数(cumulativedistributionfunction，简称CDF)是均匀分布函数。11.根据权利要求8至10中任一项所述的装置(300)，其特征在于，所述累积分布函数(cumulativedistributionfunction，简称CDF)是所述区间[0，1]上的均匀分布函数。12.根据权利要求8至11中任一项所述的装置(300)，其特征在于，所述预处理器(303)还用于：基于在多个特征向量上与所述特征相关联的特征值，确定与所述多个(M)特征的特征相关联的特征值的直方图；基于为所述相应特征确定的特征值的直方图来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)。13.根据权利要求12所述的装置(300)，其特征在于，所述预处理器(303)还用于：通过对所述特征值的直方图的直方图条求和来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)。14.根据权利要求8至10中任一项所述的装置(300)，其特征在于，所述预处理器(203)还用于：基于在多个特征向量上与所述特征相关联的特征值来确定用于与所述多个(M)特征的特征相关联的特征值的高斯分布(μ，σ)；基于为所述相应特征确定的特征值的高斯分布(μ，σ)来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)。15.根据权利要求14所述的装置(300)，其特征在于，所述预处理器(303)还用于通过将混合高斯分布(μ，σ)用于与所述多个(M)特征的特征相关联的特征值来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)。16.根据权利要求14或15中任一项所述的装置(300)，其特征在于，所述预处理器(303)还用于通过使用期望最小化算法来确定用于与所述多个(M)特征的特征相关联的特征值的所述高斯分布(μ，σ)和所述混合高斯分布的参数。17.一种用于确定神经网络参数(neuralnetworkparameter，简称PNN)集来确定音频信号样本的质量分数(MOS)的方法(1300)，其特征在于，所述方法(1300)包括：从音频信号样本中提取(1301)特征向量(n)，其中所述特征向量包括多个(M)特征值，每个特征值(m)与所述特征向量(n)的特征相关联；基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction，简称CDF)来预处理(1303)所述特征向量(n)的特征值(m)，以获得预处理的特征值(m)；实现(1305)神经网络；基于所述预处理的特征值确定所述神经网络参数(neuralnetworkparameter，简称PNN)集来确定(1307)所述音频信号样本的质量分数(MOS)。18.一种用于确定神经网络参数(neuralnetworkparameter，简称PNN)集来确...

【专利技术属性】
技术研发人员：肖玮，莫娜·哈卡米，威廉·巴斯蒂安·柯雷金安，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人