一种基于输出的客观语音质量评估的方法技术

技术编号：11049435 阅读：151 留言：0更新日期：2015-02-18 14:38

一种基于输出的客观语音质量评估的方法，其步骤如下：首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练，通过训练给干净语音建立参考模型；然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度；最后，通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系，可以得到对MOS分的客观预测模型，通过所述客观预测模型进行语音质量的客观评价。本发明专利技术建立主观MOS分和客观测度之间的映射关系，得到对主观MOS分的预测模型，使得分更接近主观质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理
，具体为一种基于输出的客观语音质量评估的方法。
技术介绍
语音质量客观评价从评价方法上可分为侵入式(intrusive)和非侵入式(non-intrusive)。侵入式的评价通常也被称为双端或基于输入-输出的评价，它是以语音系统的输入信号和输出信号之间的误差大小来判断语音质量的好坏，通过提取两端语音信号的特征参量来建立评价模型。非侵入式的评价也被称为单端或基于输出的评价，它仅根据语音系统的输出信号来进行质量评价。基于输入-输出的评价，在评价语音质量时必须要有原始语音。而在实际应用中，某些场合中难以或者不便于采集到原始语音材料。因此，对该的语音材料的评估需要有一种科学客观的语音质量评估方法。在客观语音质量评估中，选择特征参数是至关重要的，它影响着评估系统的性能。由于人耳对声音的感知特性并不是以线性频率为尺度来变化的，而是用称之为巴克的临界频带的一系列有限频段来表达。故一般在特征参数提取时要通过频谱弯折来实现对人的听觉特性的模拟。如在MFCC参数时，将频谱转化为基于Mel评标的非线性频谱。带宽类似人耳听觉临界谱带的滤波器组来实现频谱弯折。而PLP参数将频域划分为22个频带，取中间20个频带。将每个频带内的能量谱与知觉驱动的加权重函数相乘得到临界听觉谱带，以此实现频谱弯折。显然在上面两种特征参数提取时，线性频率和弯曲频率间的变换计算量是比较大的。
技术实现思路
r>本申请的目的在于克服现有技术的不足，提供一种基于输出的客观语音质量评估的方法，这种方法在评估时不需要原始语音，通过结合非均匀线性预测倒谱系数和GMM-HMM的语音质量客观评估方法，建立主观MOS分和客观测度之间的映射关系，得到对主观MOS分的预测模型，从而可以用来客观评价编码或经信道传输后的语音质量。为了达到上述目的，本专利技术的技术方案如下：一种基于输出的客观语音质量评估的方法，其步骤如下：首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练，通过训练给干净语音建立参考模型；然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度；最后，通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系，可以得到对MOS分的客观预测模型，通过所述客观预测模型进行语音质量的客观评价。进一步，所述非均匀线形预测倒谱系数为5阶的非均匀感知线性预测倒谱(NLPC)的特征参数，其处理步骤如下：1、预处理，在提取NLPC参数前要进行预处理，预处理包括预加重，分帧和加窗：(1)预加重，所述预加重用具有6dB/倍频程的提升高频特性的数字滤波器来实现，其传递函数为：H(z)＝1-μz-1 (1)其中μ为预加重系数，可取为1或比1稍小的值，一般取μ＝0.95；(2)分帧，将语音信号划分为一个一个的短时段，每一短时段称为一帧，每一帧的长度为10-30ms，所述分帧为交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重叠的；(3)加窗，设帧信号为x(n)，窗函数为w(n)，则加窗后的信号y(n)为:y(n)＝x(n)w(n),0≤n≤N-1 (2)其中，N为每帧的取样点数,所述窗函数是Hamming窗，即升余弦窗：w(n)＝0.54-0.46cos[2πn/(N-1)],0≤n≤N-1 (3)2、基于Bark双线性变换的频谱弯折，设线性频域为z平面，弯曲频域为l平面，则选择三个特殊的点(ζ1,z1)、(ζ2,z2)和(ζ3,z3)，通过一阶双线性变换可以确定z平面和l平面的映射关系：(ζ-ζ1)(ζ2-ζ3)(ζ2-ζ1)(ζ-ζ3)=(z-z1)(z2-z3)(z2-z1)(z-z3)---(4)]]>考虑到线性频域和Bark谱域的特点，则取z1＝ζ1＝1，z2＝ζ2＝-1，可以得到下式：z=Ap(ζ)=ζ+ρ1+ζρ---(5)]]>其中z和ω为复数，常数ρ为弯折系数，且0＜ρ＜1；显然式(7-4)为全通系统，它将z平面的单位圆映射为ζ平面的单位圆；在进行频谱弯折时，z为线性频域，ζ为Bark谱域，则有z＝eiω,ζ＝eiθ；故弯曲频率θ可以由下式求出：θ=arctan[(1-ρ2)sinω-2ρ+(1+ρ2)cosω]---(6)]]>若原始系统具有截止频率为ωp的分段恒定低通频率响应，经过双线性变换，系统将同样具有类似的截止频率为θp的低通响应，ρ、ωp和θp满足如下公式：ρ=sin[(θp-ωp)/2]sin[(θp+ωp)/2]---(7)]]>对ρ的优化取决于语音信号的采样频率fs，本专利技术采用的ρ的优化形式：ρY=1.067[2πarctan(0.6583fs)]12-0.191---(8)]]>3、非均匀线性预测倒谱的特征参数提取，非均匀线性预测倒谱特征参数的计算步骤如下：1)通过每帧语音信号，采用p阶线性预测分析计算出声道全极点传输函数H(z)H(z)=GA(z)=G1-Σk=1Pakz-k---(9)]]>式中G为增益常数，ak为第k阶线性预测参数，取p＝12；2)对向量a(n)＝[1,-a1,…-ap]进行DFT变换得到A(eiω)；在A(eiω)上非均匀取M个点，则有A~(k)=Σn=0pane-jθkn,k=0,1,...,M-1---(10)]]>其中θk为利用双线性变换逼近的巴克频率刻度，它与原始线性频率之间的关系为：θk=arctan[ej2πk/M+ρ1+ρej2πk/M]---(11)]]>其中ρ是由采样频率决定的频率弯折因子，考虑Bark谱域有22个频带，本专利技术中M取为88；3)弯折后的LPC谱为P~(k)=G2|A~(k)|2---(12)]]>用q阶AR模型来逼近得到声道时域相应的自相关函数：r(n)=1MΣk=0M-1P~(k)cos(2πkn/M),n=0,1,...,q---(13)]]>4)根据莱文逊-德宾(Levinson-Durbin)算法，从r(n)可以求得一组新的线性预测系数n＝0,1,…,q，根据式(7-14)可以由线性预测系数得出倒谱系数cn，该参数即为NLPC参数：c1=a本文档来自技高网...

【技术保护点】
一种基于输出的客观语音质量评估的方法，其步骤如下：首先提取干净语音的非均匀线形预测倒谱系数用来对GMM‑HMM模型进行训练，通过训练给干净语音建立参考模型；然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度；最后，通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系，可以得到对MOS分的客观预测模型，通过所述客观预测模型进行语音质量的客观评价。

【技术特征摘要】
1.一种基于输出的客观语音质量评估的方法，其步骤如下：
首先提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练，通过
训练给干净语音建立参考模型；
然后由所述参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之
间的一致性测度；
最后，通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系，可
以得到对MOS分的客观预测模型，通过所述客观预测模型进行语音质量的客观评价。
2.根据权利要求1所述的一种基于输出的客观语音质量评估的方法，其特征在于：
所述非均匀线形预测倒谱系数为5阶的非均匀感知线性预测倒谱(NLPC)的特征参数，
其处理步骤如下：
一)预处理，在提取NLPC参数前要进行预处理，预处理包括预加重，分帧和加窗：
(1)预加重，所述预加重用具有6dB/倍频程的提升高频特性的数字滤波器来实现，
其传递函数为：
H(z)＝1-μz-1    (1)
其中μ为预加重系数，可取为1或比1稍小的值，一般取μ＝0.95；
(2)分帧，将语音信号划分为一个一个的短时段，每一短时段称为一帧，每一帧的
长度为10-30ms，所述分帧为交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重
叠的；
(3)加窗，设帧信号为x(n)，窗函数为w(n)，则加窗后的信号y(n)为:
y(n)＝x(n)w(n),0≤n≤N-1    (2)
其中，N为每帧的取样点数,所述窗函数是Hamming窗，即升余弦窗：
w(n)＝0.54-0.46cos[2πn/(N-1)],0≤n≤N-1    (3)
二)基于Bark双线性变换的频谱弯折，设线性频域为z平面，弯曲频域为l平面，则

\t选择三个特殊的点和通过一阶双线性变换可以确定z平面和l
平面的映射关系：
考虑到线性频域和Bark谱域的特点，则取可以得到下式：
其中z和ω为复数，常数ρ为弯折系数，且0＜ρ＜1；显然式(7-4)为全通系统，它将z
平面的单位圆映射为平面的单位圆；在进行频谱弯折时，z为线性频域，为Bark
谱域，则有z＝eiω,故弯曲频率θ可以由下式求出：
θ=arctan[(1-ρ2)sinω-2ρ+(1+ρ2)cosω]---(6)]]>若原始系统具有截止频率为ωp的分段恒定低通频率响应，经过双线性变换，系统
将同样具有类似的截止频率为θp的低通响应，ρ、ωp和θp满足如下公式：
ρ=sin[(θp-ω...

【专利技术属性】
技术研发人员：李庆生，刘良江，卞昕，柏文琦，周鑫，彭正梁，徐昱，
申请(专利权)人：湖南省计量检测研究院，中国计量科学研究院，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人