一种基于GFCC的改进特征参数的语种识别方法技术

技术编号：29679389 阅读：86 留言：0更新日期：2021-08-13 22:02

本发明专利技术涉及一种基于GFCC的改进特征参数的语种识别方法，属于语音识别技术领域。本发明专利技术首先提取广播音频的GFCC特征参数，然后将GFCC参数的后面若干维数据置为零，但仍保持原来的数据维度，将置零后的GFCC参数进行IDCT变换，得到新的特征参数。将新的特征参数(命名为G‑Fbank)放入模型中进行训练，得到不同的语种识别模型。再将测试语种语音提取同样的特征参数放入模型中查找与之最相似的语种，得到语种识别结果。本发明专利技术可以提高广播音频的语种识别准确率，且识别速率较快。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GFCC的改进特征参数的语种识别方法
本专利技术涉及一种基于GFCC的改进特征参数的语种识别方法，属于语音识别

技术介绍
世界上与中国接壤的国家众多，交流也是必不可少的。而语言的障碍阻碍了我们与周边国家的交流。为了方便交流，需要将周边国家的语言翻译成我们能够听懂的语言。为了将别国语言翻译出来，首先要将当前语言是哪个国家的语言识别出来，进而放入对应的翻译器进行翻译。为了了解邻国的实时新闻等，我们经常会收听周边国家的广播。收听广播音频也是其中一种交流方式。随着我国与周边国家交流的增加，语种识别的重要性也逐渐显现出来。在收听国外广播时，亟待解决的问题是如何准确高效的识别周边国家的语种，从而及时将实时语音转入相应的翻译器进行翻译，转为我们能听懂的语言。而广播音频复杂的环境，包括背景音乐，噪声，男生女生说话声音频率的不同等加剧了语种识别的难度。如何提取语种特有的特征，而去除一些不必要的噪声，背景音乐，采访等的干扰，提高语种识别的准确率，成为一大技术难点。语种识别这一领域一直以来都是备受关注且具有挑战性的研究课题。目前很多研究者使用比较流行的方法包括神经网络，机器学习等提取与语种相关的特征进行学习建模，从而提高语种识别的准确率。
技术实现思路
本专利技术要解决的技术问题是提供一种基于GFCC的改进特征参数的语种识别方法，可以在复杂的国内外广播音频信号环境中，尽量提取语种的特征，尽减少男生女生说话的不同导致的识别错误，以及减少背景音乐，噪声等的干扰，识别出广播音频所播放的语种，提高语种识别的准...

【技术保护点】
1.一种基于GFCC的改进特征参数的语种识别方法，其特征在于：/nStep1：对每条语音数据提取不同维度的GFCC参数；/nStep2：对任意维度的GFCC参数，将其后面若干维数数据置零，然后进行IDCT变换；/nStep3：对后面若干维GFCC参数置零后进行IDCT变换，得到改进的GFCC参数，命名为G-Fbank；/nStep4：G-Fbank参数输入到语种训练模型中进行训练，得到不同语种的识别模型；/nStep5：对识别语音提取G-Fbank参数，放入训练好的模型中进行识别，得到最终识别结果。/n

【技术特征摘要】
1.一种基于GFCC的改进特征参数的语种识别方法，其特征在于：
Step1：对每条语音数据提取不同维度的GFCC参数；
Step2：对任意维度的GFCC参数，将其后面若干维数数据置零，然后进行IDCT变换；
Step3：对后面若干维GFCC参数置零后进行IDCT变换，得到改进的GFCC参数，命名为G-Fbank；
Step4：G-Fbank参数输入到语种训练模型中进行训练，得到不同语种的识别模型；
Step5：对识别语音提取G-Fbank参数，放入训练好的模型中进行识别，得到最终识别结果。

2.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法，其特征在于所述Step1具体为：
Step1.1：预处理；
首先通过式(1)对语音进行归一化；

式中，xi为输入的语音序列，x为进行归一化后的语音序列；
对语音进行分帧，分帧的帧移取帧长的一半，再对每帧信号加窗，分帧后的信号为x(m)(n)，则y(m)(n)为加窗后的信号，w(n)为窗函数，表示为：
y(m)(n)＝x(m)(n).w(n)(2)
然后对分帧加窗后的语音序列进行FFT变换，将数据从时域变为频域，频域信号记为y(m)(k)，其中m为语音帧数；
Step1.2：计算通过Gammatone滤波器滤波后的能量；
Gammatone滤波器频域表达式为：

式中，Y(f)是指数和阶跃函数的傅里叶变换，S(f)是频率为f0的余弦函数的傅里叶变换，H(f...

【专利技术属性】
技术研发人员：邵玉斌，陈亮，龙华，杜庆治，杨贵安，唐维康，刘晶，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人