一种基于输出的客观语音质量的评估方法技术

技术编号:16459205 阅读:47 留言:0更新日期:2017-10-25 23:46
本发明专利技术提供一种基于输出的客观语音质量评估的方法,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。应用本发明专利技术的方法,步骤精简,使用方便,且能够有效地客观评估语音的质量,不依赖主观评价。

An objective speech quality assessment method based on output

The present invention provides a method for the output of the objective speech quality evaluation based on, which comprises the following steps: by calculating the Mel frequency cepstral coefficients of speech distortion after transmission system; reference model with human auditory characteristics; the distortion of Mel frequency cepstral coefficients of speech calculation and reference model with human auditory characteristics of consistency measure; insert a sequence in the original speech, calculated after the speech distortion after transmission system extracted the bit error rate of the sequence; according to the mapping relation consistency measure and error rate and establish subjective MOS consistency measure, get to the objective evaluation of speech prediction model MOS, objective evaluation by the objective of the speech quality prediction model. The method is simple and convenient to use, and can effectively and objectively evaluate the quality of speech without subjective evaluation.

【技术实现步骤摘要】
一种基于输出的客观语音质量的评估方法
本专利技术涉及语音信号处理
,特别地,涉及一种基于输出的客观语音质量的评估方法。
技术介绍
语音质量客观评价是指用机器自动判别语音质量,按是否需要使用输入语音的角度可分为两类:基于输入-输出方式的客观评价和基于输出方式的客观评价。在许多领域,如无线移动通信、航天航海以及现代军事等,往往要求评价方法具有较高的灵活性、实时性和通用性,而且在得不到原始输入语音信号情况下也要能对语音质量进行评估,基于输入-输出的方式的客观评价中往往很难获取对应的原始语音,语音存储等方面的代价更大,在这些应用场景下存在着一定的弊端。基于输出的客观语音质量评估方法的一般过程为计算评价语音的某种特征参数,并与通过特定模型学习归纳后参考语音的特征参数进行一致性计算,最终映射得到主观MOS分的估计值。在这个过程中,特征参数、训练模型以及MOS分映射方法的选择是至关重要的,它影响着评估系统的性能。由于人耳对声音的感知特性符合巴克临界频带,因此在特征参数提取时需要实现线性频率和弯折频率转换。同时,在无线通信这类应用中,除了从语音本身分析外,还需要考虑信道质量等外在因素对语音质量的影响。因此,设计一种能够用来客观评价编码或经信道传输后的语音质量的评估方法具有重要意义。
技术实现思路
本专利技术的目的在于提供一种基于输出的客观语音质量评估的方法。考虑到人耳对频率的听觉特性,同时兼顾语音信号的倒谱分析,采用梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)描述语音特征。通过结合梅尔频率倒谱系数和GMM-HMM训练模型得到语音客观失真值,同时将信道影响通过误码率指标引入客观测度中,然后建立主观MOS分和客观测度之间的映射关系,得到对主观MOS分的预测模型,从而可以用来客观评价编码或经信道传输后的语音质量。详情如下:一种基于输出的客观语音质量的评估方法,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。以上技术方案中优选的,所述梅尔频率倒谱系数的计算过程包括预处理、FFT变换、Mel频率滤波以及离散余弦变换四个步骤。以上技术方案中优选的,所述预处理具体包括以下步骤:步骤1.1、预加重,具体是:使用具有6dB/倍频程的提升高频特性的数字滤波器来实现预加重,其传递函数为表达式1):H(z)=1-μz-11);其中:μ为预加重系数,其取值为0.9-1.0;步骤1.2、端点检测,具体是:通过设定短时能量和短时过零率的门限来进行,设某个长度为N的短时语音信号为x(m),其短时能量E用表达式2)计算:其短时过零率Z用表达式3)计算:其中,sgn[]是符号函数,即:步骤1.3、分帧和加窗,具体是:所述分帧是将语音划分为一个个帧,每一帧的长度为10-30ms;所述加窗是采用Hamming窗对每一帧信号进行加窗。以上技术方案中优选的,所述加窗的具体过程是:设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为表达式4):y(n)=x(n)w(n),0≤n≤N-14);其中,N为每帧的取样点数,w(n)的表达式为w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1。以上技术方案中优选的,所述Mel频率滤波具体是:将经过FFT处理的离散频谱用序列三角滤波器进行滤波处理,得到一组系数ml、m2、……;该滤波器组的个数p由信号的截止频率决定,所有滤波器总体上覆盖从0Hz到Nyquist频率,即采样率的二分之一;mi由表达式5)计算得到:其中:f[i]是三角滤波器的中心频率,满足:Mel(f[i+1])-Mel(f[i])=Mel(f[i])-Mel(f[i-1]);X(k)为帧信号x(n)经FFT处理后的离散频谱。以上技术方案中优选的,所述离散余弦变换具体是:将经过Mel频率滤波的Mel频谱变换到时域,得到Mel频率倒谱系数,其由表达式6)计算得到:其中:MFCC(i)为Mel频率倒谱系数,N为每帧取样点数,P为滤波器组的个数。以上技术方案中优选的,获得符合人耳听觉特性的参考模型详细过程如下:设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型表示为表达式7):λ=(π,A,B)7);其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集;对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示,如表达式8)和表达式9)下:其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数;HMM参数由观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使所述似然函数p(O|λ)的前向概率计算公式如表达式10):其中:α1(i)=πbi(o1),1≤i≤N;所述似然函数p(O|λ)的后向概率计算公式如表达式11):其中:βT(i)=1,1≤i≤N;对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ,在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,由表达式12)得到:在给定模型λ和观测序列O的条件下,状态si在时刻t的后验概率为表达式13):由此,HMM参数λ重估计如下:在t时刻状态j第k个高斯混合分量的参数cjk,μjk和Cjk由表达式14)、15)以及16)重新估计:其中,γt(j,k)表示在t时刻状态j第k个高斯混合分量的概率,可由下式得到:以上技术方案中优选的,一致性量度的计算方法具体是:采用表达式17)进行计算:其中:X1,...,XN是失真语音的梅尔频率倒谱系数向量,N是向量个数,C是失真语音与模型的一致性量度。以上技术方案中优选的,所述误码率的计算过程如下:步骤A、产生一个PN序列,并与一个混沌序列相乘,混沌序列的产生由logistic映射产生,logistic映射定义如下:xk+1=μxk(1-xk)其中,0≤μ≤4称为分枝参数,xk∈(0,1),当3.5699456…<μ≤4时,logistic映射工作于混沌态,即初始条件在logistic映射下产生的的序列{xk;K=0,1,2,3…}是非周期的、不收敛的并对初始值非常敏感;生成监测序列的具体步骤如下:步骤a1、首先产生实数值序列,并选取序列中某个位置开始的长度为监测序列大小的一段;步骤a2、将实数值序列变为二值序列:通过定义一个阈值Γ,由实数值序列得到:二值混沌序列即为{Γ(xk);k=0,1,2,3…};步本文档来自技高网...
一种基于输出的客观语音质量的评估方法

【技术保护点】
一种基于输出的客观语音质量的评估方法,其特征在于,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。

【技术特征摘要】
1.一种基于输出的客观语音质量的评估方法,其特征在于,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。2.根据权利要求1所述的基于输出的客观语音质量的评估方法,其特征在于:所述梅尔频率倒谱系数的计算过程包括预处理、FFT变换、Mel频率滤波以及离散余弦变换四个步骤。3.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述预处理具体包括以下步骤:步骤1.1、预加重,具体是:使用具有6dB/倍频程的提升高频特性的数字滤波器来实现预加重,其传递函数为表达式1):H(z)=1-μz-11);其中:μ为预加重系数,其取值为0.9-1.0;步骤1.2、端点检测,具体是:通过设定短时能量和短时过零率的门限来进行,设某个长度为N的短时语音信号为x(m),其短时能量E用表达式2)计算:其短时过零率Z用表达式3)计算:其中,sgn[]是符号函数,即:步骤1.3、分帧和加窗,具体是:所述分帧是将语音划分为一个个帧,每一帧的长度为10-30ms;所述加窗是采用Hamming窗对每一帧信号进行加窗。4.根据权利要求3所述的基于输出的客观语音质量的评估方法,其特征在于:所述加窗的具体过程是:设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为表达式4):y(n)=x(n)w(n),0≤n≤N-14);其中,N为每帧的取样点数,w(n)的表达式为w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1。5.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述Mel频率滤波具体是:将经过FFT处理的离散频谱用序列三角滤波器进行滤波处理,得到一组系数ml、m2、……;该滤波器组的个数p由信号的截止频率决定,所有滤波器总体上覆盖从0Hz到Nyquist频率,即采样率的二分之一;mi由表达式5)计算得到:其中:f[i]是三角滤波器的中心频率,满足:Mel(f[i+1])-Mel(f[i])=Mel(f[i])-Mel(f[i-1]);X(k)为帧信号x(n)经FFT处理后的离散频谱。6.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述离散余弦变换具体是:将经过Mel频率滤波的Mel频谱变换到时域,得到Mel频率倒谱系数,其由表达式6)计算得到:其中:MFCC(i)为Mel频率倒谱系数,N为每帧取样点数,P为滤波器组的个数。7.根据权利要求1所述的基于输出的客观语音质量的评估方法,其特征在于:获得符合人耳听觉特性的参考模型详细过程如下:设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型表示为表达式7):λ=(π,A,B)7);其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集;对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示,如表达式8)和表达式9)下:其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数;HMM参数由观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使所述似然函数p(O|λ)的前向概率计算公式如表达式10):其中:α1(i)=πbi(o1),1≤i≤N;所述似然函数p(O|λ)的后向概率计算公式如表达式11):其中:βT(i)=1,1≤i≤N;对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ,在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,由表达式12)得到:

【专利技术属性】
技术研发人员:李庆先刘良江王晋威朱宪宇熊婕李彦博
申请(专利权)人:湖南省计量检测研究院
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1