【技术实现步骤摘要】
本专利技术涉及语音识别
,特别是涉及。
技术介绍
在语音识别处理过程中,梅尔倒频谱系数(Mel-scale Frequency CepstralCoefficients,简称MFCC)是常用的特征参数之一。MFCC模拟了人耳的听觉特性,能够反映人对语音的感知特性,从说话人的语音信号中提取出说话人的个性特征,在语音识别实际应用中取得了较高的识别率。标准的MFCC系数提取过程包括预加重、加窗、FFT变换(Fast Fourier Transform,快速傅里叶变换)、功率谱估计、Mel滤波、非线性变换(计算对数Log)和DCT变换(Discrete Cosine Transform,离散余弦变换)。 通常,语音信号处理都是在16kHz的采样率下进行,因为16kHz的宽带信号基本能满足语音识别所需要的特征信息,而更高的采样频率并不能带来更多有用的特征信息,并且更容易受到噪声的干扰,同时增加了算法复杂度。 现有的一种MFCC系数提取方法是基于HTK(Hidden Markov ModelToolkit)工具的提取方法。HTK是目前一个高质量的语音识别工具 ...
【技术保护点】
一种语音信号的MFCC系数提取方法,包括预加重、加窗、快速傅里叶变换、功率谱估计、Mel滤波、非线性变换和离散余弦变换,其特征在于: 在进行Mel滤波时,增加Mel滤波器组的子带数量,在频率范围内进行Mel滤波,得到对应每条子带的Me l滤波输出; 然后,将高频范围内的子带数量进行聚合,得到聚合后相应子带数量的Mel滤波输出; 继续对所述低频范围和聚合后高频范围的Mel滤波输出进行非线性变换和离散余弦变换,最终提取出MFCC系数。
【技术特征摘要】
【专利技术属性】
技术研发人员:张晨,冯宇红,
申请(专利权)人:北京中星微电子有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。