The present invention provides a method for the output of the objective speech quality evaluation based on, which comprises the following steps: by calculating the Mel frequency cepstral coefficients of speech distortion after transmission system; reference model with human auditory characteristics; the distortion of Mel frequency cepstral coefficients of speech calculation and reference model with human auditory characteristics of consistency measure; insert a sequence in the original speech, calculated after the speech distortion after transmission system extracted the bit error rate of the sequence; according to the mapping relation consistency measure and error rate and establish subjective MOS consistency measure, get to the objective evaluation of speech prediction model MOS, objective evaluation by the objective of the speech quality prediction model. The method is simple and convenient to use, and can effectively and objectively evaluate the quality of speech without subjective evaluation.
【技术实现步骤摘要】
一种基于输出的客观语音质量的评估方法
本专利技术涉及语音信号处理
,特别地,涉及一种基于输出的客观语音质量的评估方法。
技术介绍
语音质量客观评价是指用机器自动判别语音质量,按是否需要使用输入语音的角度可分为两类:基于输入-输出方式的客观评价和基于输出方式的客观评价。在许多领域,如无线移动通信、航天航海以及现代军事等,往往要求评价方法具有较高的灵活性、实时性和通用性,而且在得不到原始输入语音信号情况下也要能对语音质量进行评估,基于输入-输出的方式的客观评价中往往很难获取对应的原始语音,语音存储等方面的代价更大,在这些应用场景下存在着一定的弊端。基于输出的客观语音质量评估方法的一般过程为计算评价语音的某种特征参数,并与通过特定模型学习归纳后参考语音的特征参数进行一致性计算,最终映射得到主观MOS分的估计值。在这个过程中,特征参数、训练模型以及MOS分映射方法的选择是至关重要的,它影响着评估系统的性能。由于人耳对声音的感知特性符合巴克临界频带,因此在特征参数提取时需要实现线性频率和弯折频率转换。同时,在无线通信这类应用中,除了从语音本身分析外,还需要考虑信道质量等外在因素对语音质量的影响。因此,设计一种能够用来客观评价编码或经信道传输后的语音质量的评估方法具有重要意义。
技术实现思路
本专利技术的目的在于提供一种基于输出的客观语音质量评估的方法。考虑到人耳对频率的听觉特性,同时兼顾语音信号的倒谱分析,采用梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)描述语音特征。通过结合梅尔频率倒谱系数和GMM-HMM训练模 ...
【技术保护点】
一种基于输出的客观语音质量的评估方法,其特征在于,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。
【技术特征摘要】
1.一种基于输出的客观语音质量的评估方法,其特征在于,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。2.根据权利要求1所述的基于输出的客观语音质量的评估方法,其特征在于:所述梅尔频率倒谱系数的计算过程包括预处理、FFT变换、Mel频率滤波以及离散余弦变换四个步骤。3.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述预处理具体包括以下步骤:步骤1.1、预加重,具体是:使用具有6dB/倍频程的提升高频特性的数字滤波器来实现预加重,其传递函数为表达式1):H(z)=1-μz-11);其中:μ为预加重系数,其取值为0.9-1.0;步骤1.2、端点检测,具体是:通过设定短时能量和短时过零率的门限来进行,设某个长度为N的短时语音信号为x(m),其短时能量E用表达式2)计算:其短时过零率Z用表达式3)计算:其中,sgn[]是符号函数,即:步骤1.3、分帧和加窗,具体是:所述分帧是将语音划分为一个个帧,每一帧的长度为10-30ms;所述加窗是采用Hamming窗对每一帧信号进行加窗。4.根据权利要求3所述的基于输出的客观语音质量的评估方法,其特征在于:所述加窗的具体过程是:设帧信号为x(n),窗函数为w(n),则加窗后的信号y(n)为表达式4):y(n)=x(n)w(n),0≤n≤N-14);其中,N为每帧的取样点数,w(n)的表达式为w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1。5.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述Mel频率滤波具体是:将经过FFT处理的离散频谱用序列三角滤波器进行滤波处理,得到一组系数ml、m2、……;该滤波器组的个数p由信号的截止频率决定,所有滤波器总体上覆盖从0Hz到Nyquist频率,即采样率的二分之一;mi由表达式5)计算得到:其中:f[i]是三角滤波器的中心频率,满足:Mel(f[i+1])-Mel(f[i])=Mel(f[i])-Mel(f[i-1]);X(k)为帧信号x(n)经FFT处理后的离散频谱。6.根据权利要求2所述的基于输出的客观语音质量的评估方法,其特征在于:所述离散余弦变换具体是:将经过Mel频率滤波的Mel频谱变换到时域,得到Mel频率倒谱系数,其由表达式6)计算得到:其中:MFCC(i)为Mel频率倒谱系数,N为每帧取样点数,P为滤波器组的个数。7.根据权利要求1所述的基于输出的客观语音质量的评估方法,其特征在于:获得符合人耳听觉特性的参考模型详细过程如下:设观测的特征向量序列为O=o1,o2,…,oT,该序列的状态模型序列为S=s1,s2,…,sN,则该序列的HMM模型表示为表达式7):λ=(π,A,B)7);其中,π={πi=P(s1=i),i=1,2,…,N}为初始状态概率矢量;A={aij}为状态间跳转的转移概率矩阵,aij为从状态i跳转到状态j的概率;B={bi(ot)=P(ot|st=i),2≤i≤N-1}为状态的输出概率分布集;对连续HMM模型,观测序列为连续信号,其与状态j对应的信号空间用M个混合高斯密度函数的和来表示,如表达式8)和表达式9)下:其中,cjk表示状态j的第k个高斯混合密度函数的系数;μjk是高斯密度函数的均值向量;Cjk为协方差矩阵,D为观测序列O的维数;HMM参数由观测序列O=o1,o2,…,oT估计得到,估计的目标是使模型与训练数据的似然函数P(O|λ)最大化来估计最新的λ,即使所述似然函数p(O|λ)的前向概率计算公式如表达式10):其中:α1(i)=πbi(o1),1≤i≤N;所述似然函数p(O|λ)的后向概率计算公式如表达式11):其中:βT(i)=1,1≤i≤N;对给定观测序列O=o1,o2,…,oT通过重估计得到最新的λ,在此定义ξt(i,j)为t时刻状态为si且t+1时刻状态为sj的概率,由表达式12)得到:
【专利技术属性】
技术研发人员:李庆先,刘良江,王晋威,朱宪宇,熊婕,李彦博,
申请(专利权)人:湖南省计量检测研究院,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。