一种基于主成分GFCC与声道振动频谱参数的语种识别方法技术

技术编号:35901137 阅读:14 留言:0更新日期:2022-12-10 10:37
本发明专利技术涉及一种基于主成分GFCC与声道振动频谱参数的语种识别方法,属于语音识别技术领域。本发明专利技术在训练阶段首先在低信噪比下基于Fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,将两种特征进行融合得到融合特征集,最后将融合特征集输入到语种识别模型中训练出对应语种识别模型。在识别阶段对要识别的语音提取融合特征并与训练好的语种模型进行打分判决,最后输出识别结果。经过测试,本发明专利技术可以提高语种识别在低信噪比环境下准确率,且运行速度快,计算量少。计算量少。计算量少。

【技术实现步骤摘要】
一种基于主成分GFCC与声道振动频谱参数的语种识别方法


[0001]本专利技术涉及一种基于主成分GFCC与声道振动频谱参数的语种识别方法,属于语音识别


技术介绍

[0002]随着经济全球化的发展以及科技的进步,全球各地区各民族之间的交流变得更加频繁与密切,因此语种识别问题也越来越被重视。全球各地区各民族之间要进行交流不仅仅满足于通过文字与翻译软件,而是非常需要以一种更加自然、更加智能方便的方式进行交流,因此将语音传入计算机相比于传统的打字交流越来越普遍,越来越多的工程项目或者是设备加入了语音控制模块,让机器能够听懂人话,或者说用语音控制机器是最方便的,也是一直以来的一个备受关注的研究课题。要用语音控制机器,最基础的也是最开始的一步就是要让机器判断出所说的语言是什么,才能正确识别语音的指令并进行后续操作。目前,语种识别技术已经大量运用在军事以及多语种信息服务行业。语种识别在纯净或者小噪声环境下的识别率已经很好,但是现实环境中很少有不含噪声的环境,所以低信噪比下的语种识别率还需要提升。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种基于主成分GFCC与声道振动频谱参数的语种识别方法,用来解决在低信噪比环境下语种识别率低的问题,减小噪声对语种识别的硬性,提高识别率。
[0004]本专利技术在低信噪比下基于Fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,最后将特征融合后通过高斯混合通用背景模型进行语种识别并评定方法性能。
[0005]本专利技术的技术方案是:
[0006]一种基于主成分GFCC与声道振动频谱参数的语种识别方法,首先在低信噪比下基于Fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,将两种特征进行融合得到融合特征集,最后将融合特征集输入到语种识别模型中训练出对应语种识别模型。
[0007]具体步骤为:
[0008]Step1:获取语料集数据。
[0009]Step2:对每条语音进行GFCC系数提取。
[0010]Step3:根据Fisher准则计算分析在低信噪比环境下传统13维静态GFCC特征每一维的贡献度,并将贡献度最高的5维组成主成分伽玛通频率倒谱系数(Principle Component of Gammatone Frequency Cepstral Coefficients,PCGFCC)。
[0011]Step4:对每条语音提取其声道振动频谱参数(Spectral Parameters of Channel Vibration,SPCV)。
[0012]Step5:对提取的语音PCGFCC特征融合提取的语音的声道振动频谱特征。
[0013]Step6:将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型。
[0014]Step7:将要识别的语音输入语种识别系统,提取其融合特征并与提取出来的语种模型进行对比判决打分,最后输出识别结果。
[0015]所述Step1具体为:
[0016]Step1.1:从数据库中(例如中国国际广播电视台)获取不同语种的广播音频。
[0017]Step1.2:用获取的纯净语音合成带噪语音以供检测。
[0018]所述Step2具体为:
[0019]Step2.1:对语音进行预处理,以去除非语音音素带来的干扰。
[0020]预处理包括预加重、分帧、语音能量的归一化等操作,语音能量的归一化目的是去除数据集音量大小对识别的影响,使得训练集与测试集的语音能量都在同一标准下。预加重则是提高语音的高频分量,减少高频部分的损失,更全面地记录语音信息。
[0021]Step2.2:求取语音谱线能量。
[0022]Step2.3:将语音通过Savitzky

Golay滤波平滑以去除尖锐噪声引起的频谱突变。
[0023]Step2.4:将平滑后的信号通过Gammatone滤波器滤波,再取对数并进行离散余弦变换得到对应的倒谱,即GFCC系数。
[0024]取倒谱能够将声道振动响应与声门激励脉冲分离开。选取倒谱区间因子m,构成声道振动倒谱序列,以便于把声道振动分离出来,也不会造成其中语种信息的损失。进行FFT并取实数部分并重采样,这样保留了大部分语种信息的同时还去除了部分冗余的信息,可以加快训练与识别的速度。
[0025]所述Step3具体为:
[0026]Step3.1:基于Fisher准则分别计算13维静态GFCC每一维的贡献度。
[0027]Step3.2:选择在不同信噪比下都有较大贡献度的5维组成PCGFCC。
[0028]所述Step4具体为:
[0029]Step4.1:对语音进行预处理,以去除非语音音素带来的干扰。
[0030]Step4.2:计算语音功率谱并进行Savitzky

Golay滤波。
[0031]Step4.3:对滤波后的信号取倒谱,并将声道振动响应与声门激励脉冲分离。
[0032]Step4.4:对声道振动倒谱序列做FFT取实数部分,重采样得到SPVC。
[0033]所述Step7具体为:
[0034]Step7.1:确定训练与测试语料集具体情况
[0035]Step7.2:使用大量语音测试性能,即对输入的语音提取声学与运动学两个方面的特征,将两种特征进行融合作为融合特征,再和训练好的模型进行对比打分判决,最后输出识别结果。
[0036]本专利技术的有益效果是:将运动学特征与声学特征相结合,不仅更全面地记录了语音信息,也使得语种信息得到进一步加强。若噪声对其中某一个特征影响较大,另一个特征还能有较高的辨识度,使得融合特征的鲁棒性更强。在四种不同信噪比下的识别率相比于
传统方法都有一定的提高,为低信噪比下的语种识别提供了一种有效的方案。
附图说明
[0037]图1是本专利技术不同信噪比下的语音波形图;
[0038]图2是本专利技术GFCC提取流程图;
[0039]图3是本专利技术4种信噪比等级下静态13维GFCC各维特征的F比图;
[0040]图4是本专利技术声道振动频谱参数提取流程图;
[0041]图5是本专利技术GMM

UBM训练与识别过程图;
[0042]图6是本专利技术4种信噪比不同特征方法识别率对比图;
[0043]图7是本专利技术识别结果图。
具体实施方式
[0044]下面结合附图和具体实施方式,对本专利技术作进一步说明。
[0045]实施例1:一种基于主成分GFCC与声道振动频谱参数的语种识别方法,具体步骤为:
[0046]Step1:语料集数据的获取;
[0047]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主成分GFCC与声道振动频谱参数的语种识别方法,其特征在于:Step1:获取语料集数据;Step2:对语料集数据中的每条语音进行GFCC系数提取;Step3:根据Fisher准则计算分析在低信噪比环境下传统13维静态GFCC特征每一维的贡献度,并将贡献度最高的5维组成主成分伽玛通频率倒谱系数;Step4:对每条语音提取其声道振动频谱参数;Step5:对提取的语音PCGFCC特征融合提取的语音的声道振动频谱特征;Step6:将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型;Step7:将要识别的语音输入语种识别系统,提取其融合特征并与提取出来的语种模型进行对比判决打分,最后输出识别结果。2.根据权利要求1所述的基于主成分GFCC与声道振动频谱参数的语种识别方法,其特征在于,所述Step1具体为:Step1.1:从数据库中获取不同语种的广播音频;Step1.2:用获取的纯净语音合成带噪语音以供检测。3.根据权利要求1所述的基于主成分GFCC与声道振动频谱参数的语种识别方法,其特征在于,所述Step2具体为:Step2.1:对语音进行预处...

【专利技术属性】
技术研发人员:邵玉斌张昊阁周大春段云
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1