一种基于GFCC的改进特征参数的语种识别方法技术

技术编号:29679389 阅读:86 留言:0更新日期:2021-08-13 22:02
本发明专利技术涉及一种基于GFCC的改进特征参数的语种识别方法,属于语音识别技术领域。本发明专利技术首先提取广播音频的GFCC特征参数,然后将GFCC参数的后面若干维数据置为零,但仍保持原来的数据维度,将置零后的GFCC参数进行IDCT变换,得到新的特征参数。将新的特征参数(命名为G‑Fbank)放入模型中进行训练,得到不同的语种识别模型。再将测试语种语音提取同样的特征参数放入模型中查找与之最相似的语种,得到语种识别结果。本发明专利技术可以提高广播音频的语种识别准确率,且识别速率较快。

【技术实现步骤摘要】
一种基于GFCC的改进特征参数的语种识别方法
本专利技术涉及一种基于GFCC的改进特征参数的语种识别方法,属于语音识别

技术介绍
世界上与中国接壤的国家众多,交流也是必不可少的。而语言的障碍阻碍了我们与周边国家的交流。为了方便交流,需要将周边国家的语言翻译成我们能够听懂的语言。为了将别国语言翻译出来,首先要将当前语言是哪个国家的语言识别出来,进而放入对应的翻译器进行翻译。为了了解邻国的实时新闻等,我们经常会收听周边国家的广播。收听广播音频也是其中一种交流方式。随着我国与周边国家交流的增加,语种识别的重要性也逐渐显现出来。在收听国外广播时,亟待解决的问题是如何准确高效的识别周边国家的语种,从而及时将实时语音转入相应的翻译器进行翻译,转为我们能听懂的语言。而广播音频复杂的环境,包括背景音乐,噪声,男生女生说话声音频率的不同等加剧了语种识别的难度。如何提取语种特有的特征,而去除一些不必要的噪声,背景音乐,采访等的干扰,提高语种识别的准确率,成为一大技术难点。语种识别这一领域一直以来都是备受关注且具有挑战性的研究课题。目前很多研究者使用比较流行的方法包括神经网络,机器学习等提取与语种相关的特征进行学习建模,从而提高语种识别的准确率。
技术实现思路
本专利技术要解决的技术问题是提供一种基于GFCC的改进特征参数的语种识别方法,可以在复杂的国内外广播音频信号环境中,尽量提取语种的特征,尽减少男生女生说话的不同导致的识别错误,以及减少背景音乐,噪声等的干扰,识别出广播音频所播放的语种,提高语种识别的准确率。本专利技术的技术方案是:一种基于GFCC(GammaFrequencyCepstrumCoefficient,Gamma频率倒谱系数)的改进特征参数的语种识别方法,首先提取广播音频的GFCC特征参数,然后将GFCC参数的后面若干维数据置为零,但仍保持原来的数据维度,将置零后的GFCC参数进行IDCT变换,得到新的特征参数。将新的特征参数(命名为G-Fbank)放入模型中进行训练,得到不同的语种识别模型。再将测试语种语音提取同样的特征参数放入模型中查找与之最相似的语种,得到语种识别结果。具体步骤为:Step1:不同语种的语音数据的GFCC特征提取,包括对语音的预处理(归一化,分帧,加窗)、傅里叶变换、计算谱线能量、计算通过Gammatone滤波器滤波后的能量、计算DCT倒谱等。Step1.1:预处理;预处理首先进行归一化,以免语音的音量大小影响语种识别结果。语音进行归一化的公式为:式中,xi为输入的语音序列,x为进行归一化后的语音序列。接着对语音进行分帧(分帧的帧长是可变的)。分帧的帧移取帧长的一半,再对每帧信号加窗。分帧后的信号为x(m)(n),则y(m)(n)为加窗后的信号,w(n)为窗函数。表达式如下:y(m)(n)=x(m)(n).w(n)(2)再对分帧加窗后的语音序列进行FFT变换,将数据从时域变为频域。频域信号记为y(m)(k),其中m为语音帧数。Step1.2:计算通过Gammatone滤波器滤波后的能量;Gammatone滤波器频域表达式:式中,Y(f)是指数和阶跃函数的傅里叶变换,S(f)是频率为f0的余弦函数的傅里叶变换,H(f)是滤波器的频域表达。经过滤波器后的频域表达式为:式中,m代表第m帧,i代表第i个Gammatone滤波器。Y(m,i)代表第m帧通过第i个滤波器后的频域信号。Step1.3:DCT变换,得到GFCC特征参数;对通过Gammatone滤波器后的信号取对数后再进行离散余弦变换,得到GFCC特征参数。它的表达式如下:式中,m代表第m帧,i代表第i个Gammatone滤波器(一共有N个)。n是DCT后的谱线。Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,但参数总体维度不变,然后进行IDCT变换。Step2.1:GFCC参数把后面的若干维参数置零;GFCC特征参数由语音信号经过预处理,FFT变换,滤波,DCT变换得到。它的维数由Gammatone滤波器的个数来决定,而Gammatone滤波器的个数是可变的,所以GFCC特征参数的维数也是可变的。得到GFCC特征参数后,将后面的若干维的参数置零,但置零的维数不能大于GFCC参数维数减1。假设GFCC参数为n维,那么置零的维数应小于n-1。每一帧的原始GFCC参数表达式为:gfcc(m)=[x1,x2,x3,x4,...,xn-2,xn-1,xn](6)式中,x1到xn为一帧的GFCC参数,m代表第m帧。将后面若干维置零后为:gfcc'(m)=[x1,x2,x3,x4,...,0,0,0](7)Step2.2:置零后的GFCC参数进行IDCT变换;置零后的GFCC参数维数仍然和原来的GFCC参数维数一样。此时再进行离散余弦逆变换(IDCT),即得到最终的改进的GFCC参数(命名为G-Fbank)。对置零后的GFCC参数进行IDCT:式中,y(i)代表进行离散余弦逆变换后的信号,i代表第i个Gammatone滤波器,u代表DCT的谱线,Y(u)为进行IDCT之前的信号,N为Gammatone滤波器总个数。其中,Step3:训练语种的特征模型;将每个语种按如上步骤提取G-Fbank特征参数,将特征参数放入模型中进行训练,得到每个语种对应的特征模型。Step4:语种识别;对识别的语种语音数据提取同样的G-Fbank参数,再放入语种识别模型中进行识别,得到语种识别结果。本专利技术的有益效果是:在语种识别方向,提取与语种相关的主要特征,去除细节特征可以有效地提高语种识别的准确率。可以提高广播音频的语种识别准确率,且识别速率较快。附图说明图1是本专利技术语种提取参数训练识别图;图2是本专利技术语种提取参数训练识别的流程图;图3是本专利技术实施例中GFCC数据画出的图和GFCC后面14维置零的数据进行IDCT画出的图;图4是本专利技术实施例中GFCC数据直接进行IDCT画出的图和GFCC数据后面14维置零进行IDCT画出的图;图5是本专利技术实施例中语种识别结果画出的混淆矩阵图;图6是本专利技术实施例中GFCC数据后面14维置零进行IDCT的参数得到的语种识别结果图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1所示,一种基于GFCC的改进特征参数的语种识别方法:Step1:对每条语音数据提取不同维度的GFCC参数,GFCC参数维度可变。Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,但参数总体维度不变,然后进行IDCT变换。Step3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,本文档来自技高网...

【技术保护点】
1.一种基于GFCC的改进特征参数的语种识别方法,其特征在于:/nStep1:对每条语音数据提取不同维度的GFCC参数;/nStep2:对任意维度的GFCC参数,将其后面若干维数数据置零,然后进行IDCT变换;/nStep3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,命名为G-Fbank;/nStep4:G-Fbank参数输入到语种训练模型中进行训练,得到不同语种的识别模型;/nStep5:对识别语音提取G-Fbank参数,放入训练好的模型中进行识别,得到最终识别结果。/n

【技术特征摘要】
1.一种基于GFCC的改进特征参数的语种识别方法,其特征在于:
Step1:对每条语音数据提取不同维度的GFCC参数;
Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,然后进行IDCT变换;
Step3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,命名为G-Fbank;
Step4:G-Fbank参数输入到语种训练模型中进行训练,得到不同语种的识别模型;
Step5:对识别语音提取G-Fbank参数,放入训练好的模型中进行识别,得到最终识别结果。


2.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法,其特征在于所述Step1具体为:
Step1.1:预处理;
首先通过式(1)对语音进行归一化;



式中,xi为输入的语音序列,x为进行归一化后的语音序列;
对语音进行分帧,分帧的帧移取帧长的一半,再对每帧信号加窗,分帧后的信号为x(m)(n),则y(m)(n)为加窗后的信号,w(n)为窗函数,表示为:
y(m)(n)=x(m)(n).w(n)(2)
然后对分帧加窗后的语音序列进行FFT变换,将数据从时域变为频域,频域信号记为y(m)(k),其中m为语音帧数;
Step1.2:计算通过Gammatone滤波器滤波后的能量;
Gammatone滤波器频域表达式为:



式中,Y(f)是指数和阶跃函数的傅里叶变换,S(f)是频率为f0的余弦函数的傅里叶变换,H(f...

【专利技术属性】
技术研发人员:邵玉斌陈亮龙华杜庆治杨贵安唐维康刘晶
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1